尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 地质灾害文本实体关系抽取任务旨在自动从大规模非结构化文本中提取知识三元组,是一项代表性的自然语言处理技术在地质领域的应用,对地质灾害应急处理方案制定具有重要的意义。 为了实现地质灾害文本的结构化,机器不但要准确识别文本中的实体边... 展开 地质灾害文本实体关系抽取任务旨在自动从大规模非结构化文本中提取知识三元组,是一项代表性的自然语言处理技术在地质领域的应用,对地质灾害应急处理方案制定具有重要的意义。 为了实现地质灾害文本的结构化,机器不但要准确识别文本中的实体边界,还要结合地质领域特点准确判断实体对的关系。本文围绕地质灾害文本信息结构化进行了系统的研究,调研了国内外三元组知识抽取技术及地质大数据服务现状。目前,该任务的解决方案以流水线方法为主,将关系抽取和实体识别视作两个独立的子任务。借助中文预训练模型发展的强劲势头,实体关系抽取任务的性能大幅提高。但在地质灾害文本的应用还存在一些问题,如实体漏抽错抽、实体边界模糊、错误传播等问题。针对这些问题,在依存句法分析和深度学习的基础上,本文主要工作如下: 1、针对地质灾害文本中实体边界模糊的问题,提出一种基于核心动词链的实体关系抽取方法。该方法首先使用依存句法分析技术,提取句子的核心动词,并以核心动词作为三元组的关系词,根据依存关系向前查找三元组的主实体和尾实体。并设计了缺省成分补全模块,充分利用词性和依存关系捕捉实体边界。在自建地质灾害数据集和COAE2016数据集上核心动词抽取F值平均为95.45%,三元组抽取的F值平均为82.70%。 2、针对流水线方法容易导致错误传播的问题,提出一种基于多特征融合的Transformer-CRF方法用于地质灾害实体关系的联合抽取。为了充分提取语义特征,融合了句子的稀疏特征和稠密特征作为特征表示。为了提高联合抽取模型的性能,设计了实体标注方法和抽取规则,将实体的位置信息添加到标签内,提高了实体识别的准确度。设计了双层Transformer对句子进行上下文编码,充分利用语义联系。在自建地质灾害数据集上,基于多特征融合的Transformer-CRF实体关系联合抽取模型在命名实体识别的F值达到了74.68%,关系抽取的F值达到了62.31%。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。