尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 随着人口老龄化进程日益加快,国家在构建智慧养老体系中明确提出,要更多关注老人心理健康状态。语音作为最直接的交流方式且蕴含大量情感信息,使得老人语音情感识别(SpeechEmotionRecognitionfortheElderly,ESER)成为智慧养老的一个研究热点。由于... 展开 随着人口老龄化进程日益加快,国家在构建智慧养老体系中明确提出,要更多关注老人心理健康状态。语音作为最直接的交流方式且蕴含大量情感信息,使得老人语音情感识别(SpeechEmotionRecognitionfortheElderly,ESER)成为智慧养老的一个研究热点。由于老人语音有基频低、发音不清和音质变化等特点,目前ESER的效果不佳。而且,双向长短时记忆网络(BidirectionalLongShort-TermMemory,BLSTM)和卷积神经网络(ConvolutionalNeuralNetworks,CNN)应用于ESER时还存在以下不足:第一,BLSTM将每一帧语音视为同等重要性导致无法突出重要的情感信息;第二,CNN在捕获老人语音局部特征的同时忽略了全局特征。针对以上问题,本文主要研究内容如下: 1.深入分析老人语音情感识别研究现状,从老人语音情感库、老人语音特点、情感特征提取和识别方法等方面阐述,并提出面向老人的语音情感识别总体架构。 2.针对BLSTM对每帧老人语音给予同等关注度的问题,本文引入注意力机制为每帧老人语音赋予相应的权重。该模型将老人的一帧语音特征作为BLSTM一个时间步的输入,学习出深层时序特征,利用注意力机制为每一帧深层时序特征赋予对应的权重。通过在老人语音情感库上的实验表明,注意力机制能够使得BLSTM输出更有效的时序特征,从而提高ESER的性能。 3.针对CNN对老人语音全局特征表示不足的问题,本文利用Transformer结构捕获长距离特征依赖的能力,将CNN和Transformer结合以提高模型对老人语音局部特征和全局特征的感知能力。该模型将两种结构并行连接,分别对老人语音低级特征进行学习,然后融合两个结构学习到的局部和全局特征,得到更有效的空间特征。通过在老人语音情感库上的实验表明,该模型能够有效提高ESER性能。 4.老人语音的时序特征和空间特征可以从两个不同角度表达语音中的情感信息,本文将两种特征再度融合来识别老人语音情感。通过在老人语音情感库上实验结果表明,该方法进一步提高了ESER的性能。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。