摘要:
说话人识别技术在公安、安全、司法等领域有着重要的应用价值和广阔的应用范围。现有说话人识别系统在很安静的环境下通常可以取得比较好的识别效果,但当有噪声干扰时,识别性能将急剧下降,严重阻碍了说话人识别技术在实际中的应用。针对此问题通常可以...
展开
说话人识别技术在公安、安全、司法等领域有着重要的应用价值和广阔的应用范围。现有说话人识别系统在很安静的环境下通常可以取得比较好的识别效果,但当有噪声干扰时,识别性能将急剧下降,严重阻碍了说话人识别技术在实际中的应用。针对此问题通常可以采取三种途径解决,一是前端增强处理,二是采用抗噪性更好的特征参数或对现有参数进行组合增强抗噪性,三是对匹配模型进行补偿,提高对噪声的抵抗能力。本文主要研究第一种方法,即采用前端语音增强处理提高说话人识别系统的抗噪性能。主要工作为: 1.探讨了稳健的说话人识别的研究现状和研究意义。 2.针对说话人识别系统中,无声段对识别率的不利影响,提出一种结合语音自身短时相关性和能量相结合的相关能积算法,并对语音音节间相关性弱的缺点采取了补偿,进一步提高了检测的准确性。 3.建立了基于DTW和GMM的两个说话人识别系统,建立了文本相关和文本无关的两个语音数据库,并做了多种频带的噪声对两种系统进行冲击实验,得到了大量实验数据,为后继的研究奠定了基础;针对基音频率抗噪性较好,而变异性较大的特点,本文对基音频率进行了探讨,分离了基音频率的两个特性,并采用双门限策略,提高了基音频率对变异性的克服能力。 4.研究了单通道语音增强方法,包括谱减、维纳滤波、单通道信号子空间语音增强算法,在单通道信号子空间语音增强算法研究过程中针对拉格朗日乘子选取问题,提出一种自适应选择拉格朗日乘子的方法,在大量消噪的同时,尽量避免对语音的损伤。并将单通道语音增强方法融合到两种说话人识别系统中,明显提高了说话人识别系统的性能。 5.研究了多通道语音增强方法,包括常规波束形成、波束形成维纳后滤波、线性约束最小方差波束形成(LCMV)、多通道信号子空间方法。在多通道信号子空间方法的研究过程中较为充分的讨论了多通道信号子空间方法中各个参数对算法性能的影响,通过大量的实验得出了一系列有意义的结论。并将多通道语音增强方法融合到说话人识别系统中,极大的提高了说话人识别系统的性能。
收起