尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 随着计算机科学技术的不断发展,人类与计算机的交互不再局限于特定指令的输入,计算机可通过摄像头和麦克风等信号采样设备对人的表情和语音情感信号进行识别。然而,人的情绪变化是连续且无规律的,因此,计算机能够实时的识别人类的情绪,并随时做... 展开 随着计算机科学技术的不断发展,人类与计算机的交互不再局限于特定指令的输入,计算机可通过摄像头和麦克风等信号采样设备对人的表情和语音情感信号进行识别。然而,人的情绪变化是连续且无规律的,因此,计算机能够实时的识别人类的情绪,并随时做出合理的回应是人机交互技术的目标,这也是情感识别领域中热门的研究课题。 近年来,采用多层网络结构的深度学习方法被广泛用于高层次的特征学习,其中代表性的深度学习模型包括卷积神经网络(ConvolutionalNeuralNetwork,CNN)、循环神经网络(RecurrentNeuralNetwork,RNN)等。同时,基于人类视觉处理思想的注意力机制的出现有助于深度学习模型学习到更有效的特征。为此,本文开展面向深度学习和注意力机制的情感识别研究,包括视频中的人脸表情识别和语音情感识别研究,具体研究内容可归纳为以下几个方面: (1)考虑到视频中的手工特征与主观性情感之间存在语义鸿沟的问题,识别视频序列中的人脸表情是一项挑战性的任务。针对此问题,提出一种基于深度残差注意力网络的视频表情识别方法。首先,考虑到人脸图像中各局部区域情感表示强度方面的差异性,提出采用一种基于空间注意力机制的深度残差注意力网络实现对视频中每帧表情图像进行高层次的人脸表情特征的学习,并采用平均池化计算得到固定长度的全局性视频特征参数。然后,将该全局性视频特征参数输入到一个多层感知器,用于实现表情的分类任务。在BAUM-1s和RML视频情感数据集上的实验测试结果表明,该方法分别取得了56.72%和68.50%的正确识别率。 (2)为了充分利用视频序列中的时空维度信息和不同帧图像对视频表情识别的作用力差异特点,提出一种端到端的CNN+LSTM+Transformer视频人脸表情识别方法。首先,将一个视频序列分成含有固定帧数的短视频片段,并采用深度残差网络对视频片段中的每帧图像学习出高层次的人脸表情特征,从而生成一个固定维度的视频片段空间特征。然后,通过设计合适的长短期记忆网络(LSTM)和Transformer模型分别从该视频片段空间特征序列中进一步学习出高层次的时间维度特征和注意力特征,并进行级联输入到全连接层,从而输出该视频片段的表情分类分数值。最后,将一个视频所有片段的表情分类分数值进行最大池化,从而实现该视频的最终表情分类任务。在公开的BAUM-1s和RML视频情感数据集上的试验结果表明,该方法分别取得了60.72%和75.44%的正确识别率。 (3)为了解决语音情感识别中数据集样本分布不平衡的问题,提出一种结合数据平衡和注意力机制的卷积神经网络(CNN)和长短时记忆单元(LongShort-TermMemory,LSTM)的语音情感识别方法。该方法首先对语音情感数据集中的语音样本提取对数梅尔频谱图,并根据样本分布特点对进行分段处理,以便实现数据平衡处理,通过在分段的梅尔频谱数据集中微调预训练好的CNN模型,用于学习高层次的片段语音特征。随后,考虑到语音中不同片段区域在情感识别作用的差异性,将学习到的分段CNN特征输入到带有注意力机制的LSTM中,用于学习判别性特征,并结合LSTM和softmax层,从而实现语音情感的分类。在BAUM-1s,AFEW5.0和CHEAVD2.0数据集中的实验结果表明,该方法分别取得了48.79%,37.60%和43.85%的正确识别率。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。