中国科学技术信息研究所--国家工程技术数字图书馆

基于深度学习的视觉问答研究

[学位论文]

陈珂佳
重庆邮电大学

原文获取收藏分享

摘要: 视觉问答(VisualQuestionAnswering,VQA)是计算机视觉和自然语言处理领域的研究热点。视觉问答需要机器具备模拟人类眼睛的视觉能力和大脑的推理能力，不仅能描述图片内容，而且能根据用户针对性的提问做出回答，具有用户参与度。传统VQA模型对于... 展开

作者	陈珂佳	授予学位单位	重庆邮电大学
导师	蔡林沁	学位	硕士
学科	控制科学与工程	国籍	CN
页码/总页数	1-91 / 91	出版年	2022
中图分类号	TP391.41
关键词	视觉问答多模态特征融合空间位置关系
机标主题词	视觉;多模态控制;特征融合
机标分类号	Q14;TP11;N951.3*
馆藏号	D03007930

相关论文

基于规则的图像空间位置描述研究

基于F直方图的空间位置关系自然语言描述自动生成研究

煤矿塌陷影响区对高速公路影响及对策研究

三维GIS技术的研究与应用

基于多模态特征融合的新闻视频摘要技术研究

相关机构

华北电力大学(保定)

北京邮电大学

辽宁工程技术大学

中国石油大学（北京）

华中师范大学

相关作者

相关关键词