尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 我国古籍数字化工作起步于20世纪80年代初,至今已经取得了令人瞩目的成就,主要标志是一批大规模、基础性的古籍著作被开发为真正意义上的数字化产品,并成功走向市场。相关研究论文很多,其中主要对古籍数字化的现状、发展趋势及对策进行了探讨,对... 展开 我国古籍数字化工作起步于20世纪80年代初,至今已经取得了令人瞩目的成就,主要标志是一批大规模、基础性的古籍著作被开发为真正意义上的数字化产品,并成功走向市场。相关研究论文很多,其中主要对古籍数字化的现状、发展趋势及对策进行了探讨,对古籍数字化取得的成果、数字化技术进行了介绍,然而很少见到有关古籍内容的智能化处理方面的研究。由此可见,目前古籍数字化工作主要集中在数字化产品的开发上,对产品开发过程中涉及的数字化技术研究的较多,而对古籍内容的智能处理技术研究的较少. 随着古籍数字化的深入发展,越来越多的研究者认为,古籍数字化不单是复制和再现典籍的原貌,而是将现代技术与传统内容完美结合在一起,形成工具与内容的统一体。数字化的古籍应该是一个增值的信息库,是古籍整理和学术研究的有效工具。提供有关古籍内容本身科学、准确的统计与计量信息,提供与古籍内容相关的参考数据、辅助工具,以提高数字化古籍的研究支持功能,最后建立一套完整的古籍整理专家系统,这已经成为当前古籍数字化工作的重点内容之一。 本文以农业古籍为研究对象,对利用计算机技术进行农业古籍数字化的各个方面进行了深入研究,分析探讨了古籍数字化相关技术问题,并且就农业古籍整理手段的现代化方面进行了论述,重点研究了农业古籍自动编纂和自动校勘技术及其相关问题。主要研究内容如下: (1)对古籍数字化相关技术进行了系统的介绍和分析。古籍数字化的关键在于原文的快速录入、文本字符的数字化、浏览阅读与超链接设计、检索功能开发等方面,农业古籍的数字化建设也不例外。本文论述了古籍数字化的相关技术问题,主要包括古籍数字化的用字和字符集问题,加工存储技术,浏览阅读技术,以及检索技术,并对已有的一些智能化处理研究进行了介绍。 文中对古籍数字化过程中存在的用字和字符集问题进行了分析,指出古籍数字化应选用unicode字符集,采用繁体字进行录入,并且对繁简字的转换问题以及缺字问题进行了讨论,并给出了解决方案。本文就古籍的扫描步骤、扫描方法以及OCR识别问题逐一进行了分析和介绍。并且指出古籍应该统一文本数据和图像数据的格式,以数据库存储为主,为将来资源的共建共享提供便利。超文本的浏览阅读环境是古籍数宇化在浏览阅读方面的真正优势,本文就古籍中存在的超链接关系进行了分析,并就如何进行古籍资料库的超文本标注进行了探讨。本文在综合比较分析了数字化古籍的三种检索方式后,指出数字化的古籍资源应以全文检索为基础,构建一整套包括具有关键词检索、条件检索、逻辑检索、模糊检索、组配检索、属性检索等多种功能的检索系统。 (2)本文尝试将现代文本自然语言处理的相关技术应用到农业古籍自动编纂的研究中,提出了农业古籍自动编纂的原理,设计了自动编纂的流程,并对自动编纂的技术和算法进行了深入的探讨和研究。 农业古籍自动编纂是指利用计算机自动从农业古籍中发现并摘录与某一主题相关的农业资料,并编纂成册。自动编纂涉及自动分词、篇章分割、段落检索、自动聚类等技术。它的基本原理为:如果两个句子包含相同的单词越多,那么它们的关系越密切,然后根据句子间的密切关系划分出句群。如果发现某一句群包含编纂主题,则将其摘录出来。主要的摘录步骤为:首先将农业古籍的章节分割成大小相等的子句;其次利用最大匹配分词技术,提取子句关键词;然后根据文本块比较法,计算子句之间的紧凑度和深度值,并计算深度值的均值μ和标准方差σ,选择所有深度值高于μ-C*σ的子句间隔点作为分割点;最后按照分割点提取相关论题句群,并将编纂结果按照相关性大小排序输出。若同一编纂主题的编纂结果过多,为了方便用户选择,本研究采用以词为中心的动态自动聚类技术,将编纂结果分类显示.此外,本研究还通过构建农史语词知识库,采用超链接技术,为编纂结果自动添加语词注释,增加编纂结果的可阅读性。 (3)校勘是古籍整理的重要方式,以前长期以手工进行操作,将计算机技术引入其中,实现自动校勘可以极大的提高校勘工作的效率,本文就农业古籍自动校勘算法及其相关问题进行了设计和研究。 古籍自动校勘是指利用计算机自动发现并标记出古籍不同版本之间的文字差异,并提供各种校勘辅助工具以帮助专家勘误。本文在模式匹配和中文文本自动校对的基础上,设计了基于窗口匹配技术的古籍自动校勘算法。它的基本原理为:从底本和对校本中取出大小相等的字串进行比较,如果它们不相等,则将其切分成子串再进行比较,并根据校本串相对于底本串出现的增、删及取代的情况,分别判断为衍文、脱文和错文;如果它们相等,则跳过相等部分,重新取出底本串和校本串,重复前面的步骤进行比较.农业古籍自动校勘要求在显示异文的基础上,由机器作简单的判断,或者提供辅助工具(如避讳字表、异体字表等),帮助校勘专家进行判断和选择。因此,古代官名表、人名表、地名表、避讳字表、异体字表、繁简字对照表等辅助工具的建设和引入是古籍自动校勘的重要组成部分,文中详细分析了各辅助工具的构建方法。此外,本文还探讨了利用古籍中的“互见文献”进行自动校勘的模式和方法。 (4)构建农业古籍智能处理系统亦是本文的重要研究内容,该系统主要由自动编纂、自动校勘和辅助工具三个子系统组成.其中辅助工具子系统除了包含上述辅助工具外,还增加了中国历代纪年表,中国历代帝王年表,中国历代年号索引表等。本文详细阐述了这三个子系统的总体设计及实现情况,包括资料收集、功能模块结构等,并分别对自动编纂和自动校勘的效果进行了测试。 本研究采用人工打分的方法对自动编纂的结果进行了测试,结果表明良好的编纂结果占到了72.2%,编纂的效果比较令人满意。同时,本文采用定量的方法,对自动校勘的结果进行了测试,发现系统对不同版本间异文比对的召回率和精确率,分别达到了92.3%、95.2%,说明基于窗口匹配的算法是可行的。当然,本系统仍存在一些不足,自动编纂和自动校勘的效果还有待提高,辅助工具的建设以及实验系统的整体功能还有待完善本文将现代文本自然语言处理的相关技术在农业古籍的智能化整理中加以应用,其创新之处包括: (1)结合古农书自身的特点,借鉴自动分词、篇章分割和段落检索等技术,设计了农业古籍自动编纂的模型,并对其中的关键技术进行了深入的分析和研究,如论题句群提取、编纂结果聚类显示等,实现了农业古籍自动编纂的功能,使古籍智能化处理工作向前推进了一步。 (2)借鉴中文文本自动校对和模式匹配技术,提出了古籍自动校勘的原理,设计了基于窗口匹配技术的自动校勘算法,并对校勘辅助工具的构建方法进行了探讨和分析,实现了农业古籍自动校勘的功能,是古籍校勘和整理工作走向自动化和智能化取得的突破。 (3)将现代文本自然语言处理技术引入到农业古籍数字化研究中,设计并开发了农业古籍智能化处理系统,促进了农史史料学、文献学研究方式方法的革新。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。