尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 作为二十一世纪三大尖端技术之一,人工智能的发展至关重要。人工智能从层次上可分为运算、感知、认知三个层次。其中,感知智能在某些任务中已经可以达到与人类同样的水平,运算智能更是已经远远超越人类,但是认知智能的发展还很有限,比如图像描述... 展开 作为二十一世纪三大尖端技术之一,人工智能的发展至关重要。人工智能从层次上可分为运算、感知、认知三个层次。其中,感知智能在某些任务中已经可以达到与人类同样的水平,运算智能更是已经远远超越人类,但是认知智能的发展还很有限,比如图像描述、视频描述等任务。随着近几年深度学习和计算机硬件设施的快速发展,使得视频描述这类任务得以从理论走向现实,因此视频描述逐渐被越来越多的研究者所关注,视频描述是指通过相关算法将输入的视频片段翻译为自然语言句子的跨模态任务,既需要计算机理解视频内容,同时还需将视频内容用符合人类语法习惯的自然语言准确的表述出来,具有一定难度和挑战性。 目前,视频描述任务的研究热点是基于序列学习的方法,该方法分为两个阶段:视频特征的提取阶段和文本生成阶段。由于CNN和RNN分别在计算机视觉领域和自然语言处理领域所取得的优异成果,研究学者普遍采用CNN提取视觉特征,采用RNN生成描述文本。基于“CNN-RNN”的编解码框架在视频描述任务中得到广泛使用。本文在编解码框架的基础上,进行了以下研究: (1)为了从视频数据中有效地聚焦和提取关键的静态特征和具有时序性的动态特征,本文提出了一种具有多注意力的视频描述方法。首先在InceptionV4的基础上,利用空间位置注意力和通道注意力构建了一种具有自学习比例参数的双重注意力模块用于获取注意力权重分布和权重的自适应加权,实现了对视频数据中关键静态特征的提取,增强了特征的表达能力。在此基础上,结合利用I3D网络提取到的视频动态特征共同作为具有时间注意力结构的LSTM解码网络的输入,从而生成相应的自然语言描述,最后在MSVD和MSR-VTT数据集上进行实验验证了该方法的有效性。 (2)针对特征提取网络提取出的视频特征与实际视频语义之间存在偏差的问题,本文提出一种基于语义检测和特征重建的视频描述方法。首先在提取视频特征的基础上,构建语义检测模块并利用视频特征和语义标签显式地生成语义特征向量,并将该向量与视频特征共同作为语义检测网络(SemanticCompositionalNetwork,SCN)的输入,从而改善视频特征和视频内容之间的语义一致性。同时提出利用特征重建模块从SCN隐藏层状态重建视频特征获取更丰富的视频信息对网络进行训练和优化,提升模型生成描述语句的准确性。最后通过在数据集上的实验对所提模型进行实验验证。 (3)针对最大似然训练存在的曝光偏差和损失函数与评价指标不一致的问题,提出利用基于自判别序列训练的算法对以上两种模型进行训练的方法,并在两个公开数据集上进行实验,通过与采用ScheduleSamping和Greedy、BeamSearch算法的模型进行实验结果对比,验证了该方法合理有效。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。