尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 视觉问答(VisualQuestionAnswering,VQA)是计算机视觉和自然语言处理领域的研究热点。视觉问答需要机器具备模拟人类眼睛的视觉能力和大脑的推理能力,不仅能描述图片内容,而且能根据用户针对性的提问做出回答,具有用户参与度。 传统VQA模型对于... 展开 视觉问答(VisualQuestionAnswering,VQA)是计算机视觉和自然语言处理领域的研究热点。视觉问答需要机器具备模拟人类眼睛的视觉能力和大脑的推理能力,不仅能描述图片内容,而且能根据用户针对性的提问做出回答,具有用户参与度。 传统VQA模型对于图片的预处理是通过网格提取特征,此方法处理图片过于简单,导致提取特征往往可能会忽视主要物体;其次,视觉问答模型融合困难,迫切需要有较好性能的融合模型,能够实现图像和文本的跨模态融合;此外,现有方法提取图像中的对象特征,缺乏空间特征信息,不能解决图片中不同对象的相关性问题。为了准确推理答案,有必要提出一个清晰的模型来学习问题和图像之间的相关性,并建立一个同时处理图像特征和位置特征的模型。针对上述不足,本文做了以下研究: 1.提出一种基于多模态特征融合的视觉问答模型,采用目标检测算法进行图像特征提取,利用单词向量获取文本信息,通过级联多模态融合双线性池化(CascadedMultimodalFactorizedBilinearPooling,CMFB)方法进行特征融合,挖掘模态特征之间更深层次的复杂相关性。在VQA2.0公开数据集上的实验结果表明:该模型精确度(Accuracy)达到68.13%,超过了当前一些主流模型,整体上表现了较好性能,为进一步研究VQA模型的预处理和参数选择奠定了基础。 2.提出一种结合位置双向引导的视觉问答模型(MultimodalBi-directionGuidedAttentionNetworks,MBGAN),由特征提取模块、引导识别模块、位置注意模块、特征融合模块和答案预测模块组成。其中,特征提取模块用于提取图像对象特征和问题文本的特征,引导识别模块用于获取每个图像区域与问题之间的相关性,位置注意模块与图像特征提取模块交互,实现关系关联建模,以获得不同物体的空间位置关系,增强多模态特征的匹配能力。给定一张图像和一个英语问题,MBGAN并行学习视觉特征和位置关联信息特征,将细粒度的文本和视觉特征融合在一起,通过模型堆叠准确得到最终答案。在VQA1.0、VQA2.0和COCO-QA数据集上的实验结果表明,本文所提出的MBGAN模型性能超过了大多数先进模型。 3.研究了视觉问答可视化技术,主要通过介绍类激活映射图算法和梯度加权类激活映射图算法,对VQA模型结果进行可视化展示。设计了VQA可视化界面,可输入数据集中的图片与相关问题,基于MBGAN模型,实时回答对应问题,直观地展示VQA实现过程,提高人机交互参与度。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。