尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 语音情感识别一直是人工智能领域的研究热点,由于情感本身的多面性以及情感学发展的迟延性,该研究发展程度距离成熟阶段尚有较大差距。结合其现有水平与应用需求,本文从特征融合、识别方法和社交媒体应用场景三个角度展开研究并提出相应改进方法,... 展开 语音情感识别一直是人工智能领域的研究热点,由于情感本身的多面性以及情感学发展的迟延性,该研究发展程度距离成熟阶段尚有较大差距。结合其现有水平与应用需求,本文从特征融合、识别方法和社交媒体应用场景三个角度展开研究并提出相应改进方法,主要研究内容如下: (1)针对常用语音情感特征梅尔频率倒谱系数(MFCC)存在因分帧处理引起相邻帧谱特征之间相关性被忽略,导致很多有用信息丢失问题,提出从语谱图中提取时间点火序列特征、点火位置信息对MFCC进行补充,将其分别单独用于语音情感识别,根据识别结果从P、A、D维度逐一进行相关性分析得到各特征权重系数,加权融合后获得最终PAD值并将其映射至PAD三维情感空间。实验结果表明增加基于语谱图的特征不仅能探测语音情感状态,而且考虑了相邻频谱间互相关信息,与MFCC形成互补,提升了语音情感识别准确率。 (2)针对传统基于上下文的语音情感识别系统仅局限于特征层造成标签层上下文细节丢失以及两层级差异性被忽略的缺陷,提出基于层级上下文与注意力双向长短时记忆网络(BLSTM)的识别模型。识别过程分3个阶段:第1阶段提取特征全集并采用SVM-RFE特征排序算法降维得到最优特征子集;第2阶段将特征子集输入BLSTM网络学习特征层上下文获得最初预测结果;第3阶段利用情感标注值对另一独立BLSTM网络训练学习标签层上下文并据此在最初预测结果基础上完成最终预测。实验结果表明与基线模型相比性能得到较好优化。 (3)针对社交媒体应用场景中语音会话情感特点,首先通过导出并剪辑辩论节目语音数据的方式构建训练及测试用语音情感数据库UcanUB-Voice,该数据库情感类型丰富、对话主题繁多、贴近现实生活、符合表达习惯,为本章PAD预测模型训练和测试提供了可靠有效的数据。然后通过整合前文特征融合、识别方法,提出了适合社交媒体场景的语音维度情感PAD预测模型,实验结果表明在不大量损失时间成本前提下,识别准确率得到提升,在社交媒体场景中取得了较好识别效果。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。