尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 说话人识别技术相较于其他生物识别技术更加自然,但从技术成熟度来讲,说话人识别技术仍然是在发展中的生物识别技术。目前说话人识别技术中存在两方面的技术难题,从特征提取角度来看,由于人体发声系统的易变性,需要从大量的语音样本中提取说话人... 展开 说话人识别技术相较于其他生物识别技术更加自然,但从技术成熟度来讲,说话人识别技术仍然是在发展中的生物识别技术。目前说话人识别技术中存在两方面的技术难题,从特征提取角度来看,由于人体发声系统的易变性,需要从大量的语音样本中提取说话人的声纹特征,大量冗余样本的存在为训练分类模型带来了极大困难。从识别方法角度来看,采用单分类器的说话人识别系统的泛化能力较弱,分类器的分类精度较低。针对上述问题,本文做了如下研究: (1)针对不同应用环境的语音信号特征提取方法。在现实环境中说话人发声过程中存在不同程度的噪声干扰,针对不同噪声环境采用正确的语音特征才能实现对说话人特征的有效表征。通过真实场景的实验对比研究,针对强噪声环境,提取梅尔频率倒谱系数及其差分系数作为单帧信号的特征能够有效地去除噪声影响,对语音信号的表征能力较好;针对弱噪声环境,幂率归一化倒谱系数及其差分系数作为单帧信号的特征可以在相同计算复杂度下更好的表征语音信号。 (2)基于近邻传播(AP)聚类的声纹特征样本筛选方法。针对说话人声纹样本数量过大导致分类器训练成本较高问题,利用 AP聚类对单帧信号特征样本集进行聚类,原型样本在其簇内具有典型代表性,利用聚类原型样本表征与其相似的样本,删除冗余样本,实现语音信号特征样本筛选。在实际数据集上的对比实验表明,本文提出的样本筛选方法在保证识别准确率的基础上,能够有效压缩训练样本集合,压缩率能够达到85.19%-92.95%,从而大幅降低分类器训练成本。 (3)基于集成学习的说话人识别系统构建方法。针对单分类器说话人识别模型泛化能力较弱的问题,通过多次随机抽样抽取训练样本子集,采用随机 BP神经网络算法参数扰动策略建立多个BP神经网络分类模型,并利用投票法确定最终的分类结果。实验结果表明,该方法有效克服了基于单分类器说话人识别系统泛化能力不足的问题,使得系统识别率得到了有效提升。 无论是高保真的AISHELL中文数据库的实验结果还是针对不同噪声环境下采集的自采集数据库的实验结果,都表明了本文所提方法的有效性。本文所提出的近邻传播聚类方法能在保证表征说话人本征特征的同时降低网络训练成本,提出的基于多BP神经网络的集成学习框架提高了说话人识别系统的泛化能力与准确性,丰富了说话人识别技术的相关理论和实践。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。