尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 近年来,人们对图像文本翻译的需求日益增加,图像文本翻译任务是给定含有文本的图像,在没有相应文本数据的情况下,对图中的文本图像进行翻译,并返回翻译结果的任务。传统图像文本数据往往是词级别的合成数据,缺乏面向句子级别的合成方法,且在真... 展开 近年来,人们对图像文本翻译的需求日益增加,图像文本翻译任务是给定含有文本的图像,在没有相应文本数据的情况下,对图中的文本图像进行翻译,并返回翻译结果的任务。传统图像文本数据往往是词级别的合成数据,缺乏面向句子级别的合成方法,且在真实性和复杂程度上也与真实场景有很大差距。本文的目标是构造序列级别的文本、源文本图片、目标文本、目标文本图像的平行数据。从方法上,目前人们通常使用基于规则的词级别合成方法,合成的数据与真实数据的分布差异较大。因此,本文从序列级别图像文本数据生成和复杂图像文本数据生成两个维度深入研究,主要工作及创新点如下: 1.提出了一种基于规则的图像文本构建方法 现有的基于规则的图像文本合成方法目前主要针对单语的词级别图像文本合成任务。无法满足更加复杂的图像文本翻译任务。针对上述问题,本文提出了一种基于规则的图像文本构建方法,能够满足句子级别图像文本翻译任务。具体地,本文通过设计了更多的数据变化方法,如多样的背景、字体、形变等;同时为了生成更加复杂的图像文本,在生成过程中添加更多的随机变化。同时本文在大规模双语平行句对的基础上,合成了大量面向图像文本翻译任务的数据训练集,并人工标注了影视字幕领域和街景领域的测试集。所构建的数据集为图像文本翻译任务提供了数据基础。 2.提出了一种基于Transformer的序列图像文本生成方法 尽管基于规则的数据合成方法能够以一定规则合成大量图像文本,但合成的数据与真实数据的分布之间存在较大差异。同时基于神经网络的图像文本生成方法目前主要聚焦于字符级别的无背景字体风格转换,即不同手写体风格的转换,无法满足面向图像文本翻译任务的需求。针对上述问题,本文提出了基于Transformer的序列图像文本生成方法,以生成更加复杂和多样化的图像文本翻译数据。具体地,本方法能够首先通过利用自注意力机制捕捉图像文本数据的长短期上下文关系,获得图像文本数据分布,然后基于Transformer的图像文本生成模型通过编码器-解码器注意力,对目标序列文本中的每个字符进行推断,将图像信息和文本信息良好的融合在一起,模型通过生成式对抗网络方式训练,生成多样性的序列图像文本。实验表明,基于Transformer的序列图像文本生成方法能够提高图像文本识别和图像文本翻译的性能。 综上所述,本文针对面向翻译的图像文本数据生成展开了深入研究,最终实验证明了本文所提出的方法能够有效的提升图像文本数据生成的多样性,并提高图像文本翻译模型的性能,相关成果对图像文本识别和图像文本翻译有较大的帮助。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。