尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 文字是赓续人类文明血脉的主要载体。在社会的生产生活中,文字在传递信息的方面扮演了非常关键的角色。比如,现实中的卡证、门牌、路标和票据上的文字信息描述了不同场景里的重要内容,有助于人们理解并开展相关工作。随着信息科技的飞速发展,文字... 展开 文字是赓续人类文明血脉的主要载体。在社会的生产生活中,文字在传递信息的方面扮演了非常关键的角色。比如,现实中的卡证、门牌、路标和票据上的文字信息描述了不同场景里的重要内容,有助于人们理解并开展相关工作。随着信息科技的飞速发展,文字广泛地存在于各种场景类型的图片和视频中。利用文字识别技术自动识别出图片中的文字并转化为计算机可处理的文字序列,是一个提升工作效率的重要手段。作为计算机视觉领域的一项基础任务,它可以被应用于众多实际任务场景中,如文档电子化、机器人导航、智能物流、自动驾驶和数字政府建设等。 随着深度学习的迅速发展,很多基于深层神经网络的方法可以有效地解决文字识别问题。然而这些文字识别方法是典型的数据驱动型方法,依赖于海量有标注数据才能充分发挥性能。利用自监督对比学习方法从大量成本廉价的无标注数据中获取有用表征,可以有效缓解深度学习方法对海量标注数据的依赖。因此,本文基于自监督对比学习方法,围绕文字识别问题展开了一系列的研究: 1.为了缓解相似字符在表征空间中容易被混淆的问题,本文提出了一种基于字形分组对比学习的自监督方法。该方法动态地结合了对比学习和聚类学习,并设计了组内对比学习和组间对比学习任务作为优化目标。组内对比学习要求模型在特征层面区分相似字符,而组间对比学习要求模型增大不同语义组的差异性。通过组内和组间对比学习的结合,自监督预训练可以帮助模型获得高质量的判别性表征和语义结构。多个中文和英文基准数据集的实验结果证明了本文提出的字形分组对比学习的有效性。 2.为了挖掘文本行图像中隐含的视觉序列信息,本文提出了一种基于对比预测编码的自监督方法。该方法要求模型利用上下文信息来预测未来时间步的状态,使得模型学习到视觉序列信息的全局结构。预训练阶段设计了宽度因果卷积来减小网络感受野,避免信息泄露问题导致模型在训练过程中寻找捷径。精调阶段设计了渐进恢复训练策略,逐步将宽度因果卷积替换为原始的普通卷积,避免上游和下游的结构不匹配问题。实验结果证明了本文提出的自监督对比预测编码方法在多数情况下可以提升文字识别模型的性能。 3.为了充分融合局部层级和全局层级的信息,本文提出了一种结合局部字形和全局序列信息的自监督方法。该方法采用了字形分组对比学习方法来获取局部字形信息,同时采用了对比预测编码方法来学习全局序列信息,将两者相结合。该方法包含三个模型分支,各分支对不同视图提取高维特征,经配对后分别完成分组对比学习任务和对比预测编码任务,通过多任务学习方式进行自监督预训练。在多个中文和英文基准数据集上的实验结果表明,相比于使用单一层级信息的方法,结合了全局序列信息和局部字形信息的方法具有更好的性能表现。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。