客服热线:0769-81373331??13924330797 ??|??E-mail:2121283975@qq.com

www.qg111.com|钱柜娱乐手机版登录|电子寄存柜|智能充电柜|智能保密柜|智能洗衣柜|智能文件柜|智能枪弹柜|超市存包柜|工厂手机柜|工厂存包柜|智能手机柜|寄存柜厂家|钥匙柜厂家|快递柜厂家|智能寄存柜|自助寄存柜|智能存包柜|电子寄存柜厂家|智能图书柜|图书馆智能柜|www.qg111.com装备

www.qg111.com|钱柜娱乐手机版登录|电子寄存柜|智能充电柜|智能保密柜|智能洗衣柜|智能文件柜|智能枪弹柜|超市存包柜|工厂手机柜|工厂存包柜|智能手机柜|寄存柜厂家|钥匙柜厂家|快递柜厂家|智能寄存柜|自助寄存柜|智能存包柜|电子寄存柜厂家|智能图书柜|图书馆智能柜|www.qg111.com装备

声纹识别

         声纹是一项根据语音波形中反映说话人生理、心理和行为特征的语音参数。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程 ,人在讲话时使用的发声器官———舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面因人而异 ,所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性 ,又有变异性。这种变异可来自生理、病理、心理、模拟、伪装 ,也与环境干扰有关。尽管如此 ,由于每个人的发音器官都不尽相同 ,因此在一般情况下 ,人们仍能区别不同的人的声音或判断是否是同一人的声音。
        声纹识别也称说话人识别 ,可以看作是语音识别的一种。但它不同于语音识别 ,并不注重语音信号中的语义内容 ,而是希翼从语音信号中提取人的特征 ;在处理方法上 ,语音识别力图对不同人说话的差别加以归一化 ,而说话人识别则力图强调不同人之间的区别。

声纹识别可分为与文本相关的 ( Text depend ent)和与文本无关的 (Textindependent)两种。与文本相关的声纹识别系统要求用户按照规定的内容发音 ,每个人的声纹模型逐个被精确地建立 ,而识别时也必须按规定的内容发音,因此可以达到较好的识别效果 ,但系统需要用户配合 ,如果用户的发音与规定的内容不符合 ,则无法正确识别该用户。而与文本无关的识别系统则不规定说话人的发音内容 ,模型建立相对困难 ,但用户使用方便 ,可应用范围较宽。根据特定的任务和应用 ,两种声纹识别系统具有不同的应用范围。比如 ,在银行交易时可以使用与文本相关的声纹识别 ,因为用户自己进行交易时是愿意配合的 ;而在刑侦或侦听应用中则无法使用与文本相关的声纹识别 ,因为你无法要求犯罪嫌疑人或被侦听的人配合。
声纹识别涉及两个关键问题 :一是特征提取 ,二是模式匹配。
特征提取的任务是提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征。与语音识别不同 ,声纹识别的特征必须是“个性化” 特征。虽然目前大部分声纹识别系统用的都是声学层面的特征 ,但是表征一个人特点的特征应该是多层面的 ,包括 :
(1)与人类发音机制的剖解学结构有关的声学特征 (如频谱、倒频谱、共振峰、基音、反射系数等等 )、鼻音、带深呼吸音、沙哑音、笑声等 ;
(2)受社会经济状况、教育水平、出生地等影响的语义、修辞、发音、言语习惯等 ;
(3)个人特点或受父母影响的韵律、节奏、速度、语调、音量等特征。
从利用数学方法可以建模的角度出发 ,目前声纹自动识别模型可以使用的特征包括 :
(1)声学特征 (倒频谱 ) ;
(2)词法特征 (说话人相关的词 n gram,音素 n
gram) ;
(3)韵律特征 (利用 ngram描述的基音和能量
“姿势”) ;
(4)语种、方言和口音信息 ;
(5)声道信息 (使用何种声道 ) ;等等。
根据不同的任务需求,声纹识别还面临特征选用的问题。例如 ,在刑侦应用上 ,希翼不用声道信息 ,也就是说希翼弱化声道对说话人识别的影响 ,因为大家希翼不管说话人用什么声道系统它都可以辨认出来 ;而在银行交易上 ,希翼用声道信息 ,即希翼声道对说话人识别有较大影响 ,从而可以剔除录音、模仿等带来的影响。
总之 ,较好的特征 ,应该能够有效地区分不同的说话人 ,但又能在同一说话人语音发生变化时保持相对的稳定 ;不易被他人模仿或能够较好地解决被他人模仿问题 ;具有较好的抗噪性能 ;等等。当然, 这些问题也可以通过模型方法去解决。对于模式匹配 ,有以下几大类方法 :
(1)模板匹配方法 :利用动态时间规整 (DTW ) 以对准训练和测试特征序列 ,主要用于固定词组的应用 (通常为文本相关任务 ) ;
(2)最近邻方法 :训练时保留所有特征矢量 ,识别时对每个矢量都找到训练矢量中最近的 K个 ,据此进行识别 ,通常模型存储和相似计算的量都很大 ;
(3)神经网络方法 :有很多种形式 ,如多层感知、径向基函数 (RBF)等 ,可以显式训练以区分说话人和其背景说话人 ,其训练量很大 ,且模型的可推广性不好 ;
(4)隐马尔可夫模型 (HMM)方法 :通常使用单状态的 HMM,或高斯混合模型 ( GMM) ,是比较流行的方法 ,效果比较好 ;
(5)VQ聚类方法 :效果比较好 ,算法复杂度也不高 ,和 HMM方法配合起来可以收到更好的效果 ;
(6)多项式分类器方法 :有较高的精度 ,但模型存储和计算量都比较大 ;等等。
声纹识别需要解决的问题还有很多 ,诸如 :
(1)有限的训练及测试样本问题 ,即在声音不易获取的应用场合 ,能否用很短的语音进行模型训练 ,而且用很短的时间进行识别 ;
(2)声音模仿 (或放录音 )问题 ,即怎样有效地区分开模仿声音 (录音 )和真正的声音 ;
(3)在有多个说话人说话情况下 ,怎样有效地提取目标说话人的声纹特征 ;
(4)怎样消除或减弱声音变化 (不同语言、内容、方式、身体状况、时间、年龄、情绪等 )带来的影响 ;
(5)环境及声道鲁棒性问题 ,即怎样消除声道差异和背景噪音带来的影响 ;等等。


产品导航:快递柜|电子寄存柜|存包柜|钥匙柜|保密柜|www.qg111.com|枪弹柜

?
XML 地图 | Sitemap 地图