尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 声纹识别也称作说话人识别,是从说话人语音中提取出有效的个人声音特征进行说话人的辨认和确认,是语音识别研究方向的一个重要分支。随着信息技术和网络通信的发展,信息安全成为全球最为热门的研究领域之一,对高可靠性的身份验证技术和身份识别技... 展开 声纹识别也称作说话人识别,是从说话人语音中提取出有效的个人声音特征进行说话人的辨认和确认,是语音识别研究方向的一个重要分支。随着信息技术和网络通信的发展,信息安全成为全球最为热门的研究领域之一,对高可靠性的身份验证技术和身份识别技术的需求也日益增长。声纹识别技术以其独特的准确性、便捷性、经济性而逐渐受到重视,并且取得了迅速的发展。同时,统计学方法在声纹识别技术中的应用也越来越受到学术界和工业领域的重视。本文主要研究高斯混合模型(Gaussian Mixture Model,简称GMM)和动态时间规整(Dynamic Time Warping,简称DTW)模型在声纹识别中的应用,实验数据来自美国国防部某局信息科学与计划署(DARPA-ISTO)赞助下完成的TIMIT语音库。相比于比较简单的识别率较高的文本相关的声纹识别,本文选择的是文本无关的声纹识别问题。因此,选题具有很大的挑战性。 本文首先总体介绍声纹识别的研究背景和发展历史,然后对声纹识别技术的基本原理进行了介绍,同时详细阐述了声纹识别技术的特征提取、高斯混合模型以及动态时间规整模型。在特征提取方面,主要介绍了目前应用的两个主流声纹特征参数——线性倒谱系数(Linear Predictive Cepstral Coefficient,简称LPCC)和梅尔倒谱系数(Mel-Frequency Cepstrum Coefficients,简称MFCC)。其中主要就本文采用的梅尔倒谱系数(MFCC)进行详细阐述,经过预处理、分帧和加窗、端点检测、离散傅里叶变换、三角带通滤波器、对数能量和余弦变换的一系列流程,最终得到语音的一个重要的特征参数——梅尔倒谱系数。在模式识别方面,主要介绍了高斯混合模型(GMM)和动态时间规整(DTW),分别就各自的基本原理进行了详细的阐述,运用提取的梅尔倒谱系数(MFCC)作为特征变量,通过初始化高斯混合模型(GMM),接着用EM算法进行模型训练得到估计参数,最终得到每个说话人的声纹识别模型——高斯混合模型(GMM)。在第四章部分进行了算法设计和基于MATLAB环境下的文本无关的高斯混合模型(GMM)和动态时间规整(DTW)实验。 本文从特征参数选择、模型选择以及模型定阶三个角度进行优化,实现了系统在最优状态下的识别率为48.4%。实验结果表明,基于文本无关的声纹识别技术准确率依旧较低,这是由于到目前为止,在普通的PC机上由于硬件的限制,针对TIMIT语音库的630个说话人的6300句语音样本仅能选取63个人的126句语音进行试验。在这样的实验条件下,能够达到本文的系统识别率是被业界专家所认可的。而相对于比较容易操作的文本相关的声纹识别实验,本文实现了90%的识别率。如果从提高硬件水平,采用集成学习或者寻找表征能力更强的特征参数等方面考虑,未来文本无关的声纹识别技术的识别率仍有很大的提升的空间。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。