尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 在科技发展的今天,人们的日常的生产生活中每天会发送和收获大量的图像,而大多数图像中会包含大量的文本信息。人们在生动图像的信息中会快速收获大量的内容,其中对人们影响最大的就是场景图像中带来的信息,但是场景图像就必然会出现图像质量不高... 展开 在科技发展的今天,人们的日常的生产生活中每天会发送和收获大量的图像,而大多数图像中会包含大量的文本信息。人们在生动图像的信息中会快速收获大量的内容,其中对人们影响最大的就是场景图像中带来的信息,但是场景图像就必然会出现图像质量不高的情况,如何能准确快速的识别文本中的信息成为一个急需解决的问题。自然场景图像文本识别技术在对图像文本识别时首先要多文本进行分类和检测,通过对文本定位提取文本特征序列进而再识别。而在计算机视觉领域的深度学习技术,通常会添加很多的参数和网络层级结构以求更好的预测效果。 针对网络模型过深和场景文本识别效果不佳,本文提出了结合模型压缩的自然场景图像文本识别模型。该模型包括四部分:(1)基于压缩YOLO模型的文本区域检测算法,对参数过多的Yolov3-Darknet53网络进行剪枝处理。首先合并Darknet53网络的卷积层和BN层,然后在剪枝中利用正则化比例因子,删除对准确率影响不大的参数,最后利用剪枝后的Darknet53网络进行文本定位检测。(2)文本区域过滤与提取,对上一步骤检测出的多个文本区域按分数排序,提取最优文本区域特征图。(3)字符区域提取,分割文本区域,得到字符的位置信息。(4)文本识别,双向LSTM中预测特征序列中的每一个特征向量的标签分布。最后将LSTM网络预测的结果进行处理,整合特征序列的结果,利用CTC技术解决输出与输入对齐问题,得到最终输出的结果。 最后,为了验证论文提出的算法的有效性,论文以准确率(Precision)、召回率(Recall)和F值(F-Measure)三个方面作为评价标准,将剪枝后的Darknet53深度网络在文本检测上同未剪枝模型和SegLink,EAST模型进行横纵对比。进行了特征融合的自然场景文本图像的识别实验,并将结果同WordSup,CTPN,EAST模型进行对比。实验结果表示,结合模型压缩和融合特征图的自然场景图像文本识别算法有效可行。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。