尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 中国古代的印刷术,是中国古代的四大发明之一,中国的古代文明凭籍它得以传播与保存。本文所说的古籍或古代文献,就是通指用这种印刷术印刷而成的纸质印刷物。除此以外,还包括古代手写手抄本及其影印本。古籍保留了中华民族数千年智慧的结晶,是研... 展开 中国古代的印刷术,是中国古代的四大发明之一,中国的古代文明凭籍它得以传播与保存。本文所说的古籍或古代文献,就是通指用这种印刷术印刷而成的纸质印刷物。除此以外,还包括古代手写手抄本及其影印本。古籍保留了中华民族数千年智慧的结晶,是研究中华文化与历史的最重要依据。随着现代信息技术及网络技术的发展,通过文献数字化对文献进行快速而准确的检索,成为古籍利用及保护最有效的手段。其中,古籍全文数字化可以深度揭示古籍中所包含的知识,因此它是古籍数字化中最重要的一环。然而,至今为止所有的古籍全文数字化产品都建立在文本的基础之上,用于全文检索以及最终展现出来的都是文本,因此它们都存在着利用的可靠性问题。于是在学界形成了一致的认识,不敢采信对数字化古籍所检索到的结果,必须核对原版古籍。在此背景下,本文所研究的“古籍全文图像数字化”,即在古籍的原版图像上实现全文检索,及检索结果直接在古籍原版图像上进行定位凸现出巨大的价值,如此一来可改变目前学界对古籍全文数字化产品的认识。 现代文献是通过对文献图像进行OCR识别并构建双层PDF的方式,来实现全文图像数字化。将此原理应用于古籍全文图像数字化,在对古籍图像进行OCR识别时主要存在三个问题:(1)图像上的文字坐标切分错误;(2)文字识别错误;(3)文字坐标顺序与古籍阅读顺序不一致。为此,本文在对上述问题进行比较研究后,提出了解决古籍全文图像数字化问题的整体框架:首先,修正OCR坐标中的错误,并对修正后的坐标和相应字符按照古籍的阅读顺序进行正确的排序;其次,针对排序后文本中还存在的大量文字错误,使用预制的精确文本对其进行自动校正。 在修正OCR坐标时,针对坐标错误主要集中在双行夹注的特点,采用基于区域识别的图像分割方法对错误坐标进行修正,取得了预期的修正效果,极少数不能自动修正的坐标采取人工干预的方式加以修正。在对坐标及文本按照古籍阅读顺序进行排序时,由于古籍中字的大小不一、文字之间相互交错以及古籍中存在大量双行夹注等原因,使得古籍图像上的坐标排序问题变得非常复杂。为此,本文提出了基于有向图及最优路径的古籍坐标排序算法,实践证明,各种古籍,包括甲金文样本在内,坐标排序准确率达到100%。在对坐标排序后所得到的有序文本中的错误文字进行自动校正时,本文在LD算法原理的基础上,提出了古籍文本自动校正算法,古籍加工实践证明,该算法准确、高效。 依据上述古籍全文图像数字化框架,在进行古籍全文数据加工时能达到平均40秒/页的加工速度,目前已经加工完成并能使用的古籍文献包括《四部丛刊》在内共计3千余册,且预计于2014年10月前完成《四库全书》的加工并投入使用。本系统可在教育网内通过《东方语言学》网站上的“文献查询”链接进行访问,系统中除了提供全文检索及检索结果直接在古籍原版图像上进行定位功能外,还采用了很多创新的理念,提供了版本对照、图片内容校注、校注内文献跳转等功能,充分的满足了研究者在进行古籍研究时所需的准确、高效、灵活、互动等需求。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。