尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 在当前互联网蓬勃发展的时代,每天都会产生海量的文本数据。如何将这些非结构化的文本进行结构化表达,从中发掘出有价值的信息,已经成为时下自然语言处理领域的研究热点。经过广大学者的多年研究,目前较为有效的方法是构建知识图谱,而构建过程中... 展开 在当前互联网蓬勃发展的时代,每天都会产生海量的文本数据。如何将这些非结构化的文本进行结构化表达,从中发掘出有价值的信息,已经成为时下自然语言处理领域的研究热点。经过广大学者的多年研究,目前较为有效的方法是构建知识图谱,而构建过程中的关键技术是实体关系抽取,其旨在从文本中识别出实体,并根据上下文语境确定实体之间的语义关系。此前基于统计学的方法,存在耗时费力且可移植性差等问题。近几年深度学习技术逐渐被应用到该任务中,虽然取得众多成果,但是仍存在一些局限性。比如,目前大多数方法使用的静态词向量,存在文本语义表征能力不足、无法表达一词多义等问题;基于流水线的实体关系抽取方法,存在错误传播和两个子任务关联性不足等问题。 本文的主要研究工作如下: (1)阐述了实体关系抽取的研究背景及意义,对其国内外研究现状进行了综述,并归纳了现有方法的局限性与不足,对该任务的相关理论与技术进行总结。 (2)针对静态词向量文本语义表征能力、无法表达一词多义等问题。分析了文本表示对模型效果的重要性,并对预训练语言模型进行研究,采用BERT生成隐含丰富语境信息的词向量。在WebNLG数据集上完成了实验,F1指标比ETL-Span模型提高了2.3%。 (3)针对基于流水线的实体关系抽取方法存在的错误传播和两个子任务关联性不足的问题。提出了一个新的标注方案,并在此基础上通过参数共享的方式进行联合抽取,以提高两个子任务之间的交互性,实体关系抽取效果实现了提升。在数据集DuIE上完成了实验,F1指标比FETI模型提高了1.3%。 本文的创新之处包括: (1)利用预训练语言模型BERT进行文本表示,基于指针网络构建了一个实体关系抽取模型。首先采用指针网络预测出句子中的实体和关系类型,然后将词向量、实体和关系类型输入到BiGRU中进—步获取句子中隐含的语义特征,最后利用BERT输出的全局矩阵指导模型完成实体关系抽取。在公开的英文数据集WebNLG上进行实验,所提模型F1指标为85.4%,精确率是87.2%,召回率达到83.7%,与ETL-Span、OrderRL和Copymtl模型相比,综合指标F1值分别提升了2.3%、23.8%和29.0%。 (2)构建了一个基于RoBERTa的实体关系联合抽取模型。提出了一个新的标注方案,将实体主宾语特征和实体类型信息融入到模型中,并通过参数共享的方式进行联合抽取。充分利用预训练语言模型RoBERTa和神经网络BiLSTM的优势,提高了模型的性能。在公开的中文数据集DuIE上进行了实验,F1指标达到77.1%,分别比与FETI、MHS和WDce模提升了1.3%、8.1%和18.4%,实验结果证明了所提模型的优势。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。