尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 知识图谱以结构化的形式描述客观世界中概念、实体及其之间的关系,提供了一种对海量数据的有效的组织和管理方式。在当前的大数据时代,各行业无时无刻都在产生着大量的数据,众多行业都需要构建自身领域的知识图谱(领域知识图谱)。然而,领域知识... 展开 知识图谱以结构化的形式描述客观世界中概念、实体及其之间的关系,提供了一种对海量数据的有效的组织和管理方式。在当前的大数据时代,各行业无时无刻都在产生着大量的数据,众多行业都需要构建自身领域的知识图谱(领域知识图谱)。然而,领域知识图谱的构建往往面临着领域相关数据缺乏、人工标注依赖大等困难。因此,如何在有限的领域数据条件下,自动创建新的标注数据,减少人工工作量是当前领域知识图谱构建迫切需要解决的关键问题。 本文围绕领域知识图谱构建中的数据处理、知识抽取、知识融合、知识存储等主要环节展开工作,重点研究数据处理和知识抽取,针对现有技术的不足,提出新的方法和解决方案。本文的主要贡献有如下几个方面: 1.在数据处理环节,针对筛选领域文本过程中人工工作量巨大的问题,提出一种基于局部敏感哈希的SVM分类方法,实现自动领域文本筛选。该方法采用局部敏感哈希算法对原始训练样本进行映射,进而筛选出可能的边界样本点作为SVM训练样本,显著地减少了SVM训练样本数目,提高了模型构建速度。同时,采用网格搜索算法以交叉验证的方案实现SVM参数的选择以提高文本分类精度。在公开数据集UCIAdult上对提出方法进行了性能分析,并在搜狗实验室文本分类数据集上验证了效果。 2.在知识抽取环节,针对模型训练中标注语料缺乏的问题,提出一种基于Seq2Seq模型的标注语料自动生成方法,用以扩充形如“实体1-关系-实体2-句子”的四元组标注语料。该方法对大量未标注的文本采用基于保留词的回译法,生成相应同义句作为训练语料;在模型训练阶段,采用实体标签替换的方法,以使得模型学习到与实体无关的同义句生成规则;在文本生成阶段,采用基于自检索束搜索的生成策略,保证了模型的输出包含指定实体和关系。通过将生成的标注语料作为训练语料用于关系抽取任务中,验证了该方法的有效性。 3.根据以上研究,设计了一个领域知识图谱构建的方案,并以金融领域知识图谱构建为例,具体设计和实现了从数据处理、知识抽取、知识融合到知识存储的图谱构建流程,并展示了金融领域知识图谱的基本功能。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。