尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 实体关系抽取是指从非结构化文本中抽取出结构化数据,并以三元组的形式表示出来。目前,深度学习方法结合实体关系抽取任务已经取得了较好的效果。和基于模板、基于统计的方法相比不同的是,深度学习方法能够借助神经网络自动提取句子的语义特征,在... 展开 实体关系抽取是指从非结构化文本中抽取出结构化数据,并以三元组的形式表示出来。目前,深度学习方法结合实体关系抽取任务已经取得了较好的效果。和基于模板、基于统计的方法相比不同的是,深度学习方法能够借助神经网络自动提取句子的语义特征,在模型训练过程中,不断进行特征学习,解决了人工设计特征耗费时间耗费精力的问题。实体关系抽取任务主要使用卷积神经网络和循环神经网络,卷积神经网络在对句子进行建模时能够很好地保留句子的全局信息,所以,本文选择卷积神经网络作为句子编码器,把句子映射为语义向量来进行实体关系抽取。 越来越多的学者用远程监督来进行实体关系抽取任务,这种方法可以从文本中挖掘新的关系事实。但是,因为远程监督的假设程度太强,它就不可避免地会出现标签不正确的问题,这些问题会严重影响实体关系抽取任务的精确率和召回率。为了解决这个问题,提出了一种基于句子级注意力机制的实体关系抽取模型。在这个模型中,使用卷积神经网络作为句子编码器来嵌入句子的语义信息。然后,在多个句子上建立句子级注意力机制,这样可以同时利用所有的实例信息进行实体关系抽取,在一定程度上解决了远程监督带来的数据噪声问题。对于标签正确或者信息量丰富的实例,句子级注意力机制可以动态地赋予其更高的权重;对于标签错误或者信息量较少的实例,句子级注意力机制可以动态地赋予其较低的权重,减小噪声数据对实体关系抽取模型的影响。与本文的基线模型相比,这个模型的实体关系抽取性能有了显著的提高。 中文领域中用于实体关系抽取的标注数据较少,本文用远程监督的方法构建了一个中文数据集用于实体关系抽取。原始数据来自复旦大学的中文通用百科知识图谱,构建流程分为:构建实体字典、句子预处理、句子分词、句子实体对筛选、添加关系标签等步骤。最后,将数据集分为训练集和测试集,利用这些数据对模型进行训练和测试。 在远程监督构建的中文数据集和NYT数据集上进行对比试验,注意力机制是在卷积神经网络作为句子编码器的基础上引入的,本文提出的PCNN+ATT模型与基线模型相比,实体关系抽取任务的F1值达到了88.41%,证明了这种方法的有效性。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。