[学位论文]
  • 陈珂佳
  • 重庆邮电大学

摘要: 视觉问答(VisualQuestionAnswering,VQA)是计算机视觉和自然语言处理领域的研究热点。视觉问答需要机器具备模拟人类眼睛的视觉能力和大脑的推理能力,不仅能描述图片内容,而且能根据用户针对性的提问做出回答,具有用户参与度。 传统VQA模型对于... 展开

作者 陈珂佳   授予学位单位 重庆邮电大学  
导师 蔡林沁 学位 硕士
学科 控制科学与工程   国籍 CN
页码/总页数 1-91 / 91 出版年 2022
中图分类号 TP391.41
关键词 视觉问答   多模态特征融合   空间位置关系  
机标主题词 视觉;多模态控制;特征融合
机标分类号 Q14;TP11;N951.3*
馆藏号 D03007930
相关作者
相关关键词