尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 语音情感识别(SER)系统作为一组检测语音信号中嵌入情感并对其进行处理和分类的方法,在智能人机交互领域得到了广泛的应用。目前,由于情感语料库、环境噪声、硬件设备等原因,市场上流通的大多数语音情感识别产品适应能力有限,快速、准确、高效地... 展开 语音情感识别(SER)系统作为一组检测语音信号中嵌入情感并对其进行处理和分类的方法,在智能人机交互领域得到了广泛的应用。目前,由于情感语料库、环境噪声、硬件设备等原因,市场上流通的大多数语音情感识别产品适应能力有限,快速、准确、高效地获取语音中所包含的情感信息是国内外语音情感识别领域的研究热点之一。在语音情感识别领域,语音中最相关情感特征提取和模型自身层次结构的改良是当前语音情感识别的主流研究方向,它们的选取将直接影响整个系统的识别准确率。论文在现有语音情感识别研究基础上,提出基于神经网络和注意力机制的语音情感识别系统,用于改善现有模型的识别性能。 针对最相关情感特征的选取问题,选用中国自然情感视听数据库(CHEVAD2.0)作为所构建基于卷积神经网络(CNN)和门控循环单元(GRU)语音情感识别模型训练数据的同时,验证了语谱图低频部分情感特征对情感类别具备更好的区分性。在此基础上,引入焦点损失通过控制交互式情感二元运动捕捉(IEMOCAP)数据集中各情感类别对总模型的贡献占比,进一步提高了模型整体的识别性能。实验结果表明,相对于神经网络模型,其加权精度(WA)和非加权精度(UA)在IEMOCAP数据集上分别得到1.59%和4.41%的提升,在高兴情绪类别上相对于其他情感类别得到最高的提升为7.9%。 针对非情感信息影响模型识别性能的问题,提出了基于神经网络与多头注意力结合的语音情感识别模型,通过变换模型输入的方式,使模型更全面地学习语音样本中各类情感特征。结果表明,引入多头注意力机制的CNN和GRU网络模型在WA和UA分别获得了7.16%和8.73%的提升。此外,针对引入多头注意力机制处理长输入序列时会导致整个模型计算复杂度明显增高的问题,给出了利用局部哈希注意力(LSHAttention)通过将多头注意力层因子简化为因子,有效降低了模型训练复杂度。结果表明,采用局部哈希注意力的模型训练速度会随着输入序列的增长依然保持相对稳定的状态。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。