中国科学技术信息研究所--国家工程技术数字图书馆

Structured Multimodal Attentions for TextVQA

[期刊]

《》 2022年44卷12Pt.2期

原文获取收藏分享

摘要 : Text based Visual Question Answering (TextVQA) is a recently raised challenge requiring models to read text in images and answer natural language questions by jointly reasoning over the question, textual information and visual con... 展开

作者	Chenyu Gao Qi Zhu Peng Wang Hui Li Yuliang Liu Anton van den Hengel Qi Wu
作者单位	Ningbo Institute and School of Software Northwestern Polytechnical University Xi'an Shaanxi China\|National Engineering Laboratory for Integrated Aero-Space-Ground-Ocean Big Data Application Technology China School of Computer Science Northwestern Polytechnical University Xi'an Shaanxi China Ningbo Institute and School of Computer Science Northwestern Polytechnical University Xi'an Shaanxi China\|National Engineering Laboratory for Integrated Aero-Space-Ground-Ocean Big Data Application Technology China University of Adelaide Adelaide SA Australia
页码/总页数	9603-9614 / 12
语种/中图分类号	英语 / TP391
关键词	Optical character recognition software Cognition Visualization Text recognition Task analysis Knowledge discovery Annotations
DOI	10.1109/TPAMI.2021.3132034
馆藏号	IELEP0261