尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 实体关系抽取是信息抽取的重要任务,该任务的的输入是多结构化的文本数据,包括:结构化的infobox信息框,半结构化的表格,以及非结构化的自由文本。该任务的输出是实体关系,可以表示为三元组(实体1,关系,实体2)的形式。对于结构化和半结构化数... 展开 实体关系抽取是信息抽取的重要任务,该任务的的输入是多结构化的文本数据,包括:结构化的infobox信息框,半结构化的表格,以及非结构化的自由文本。该任务的输出是实体关系,可以表示为三元组(实体1,关系,实体2)的形式。对于结构化和半结构化数据,可以直接解析得到关系三元组,目前实体关系抽取的研究主要是从非结构化文本中抽取出实体关系。比如给定一个句子“姚明出生于上海”,实体关系抽取算法需要从中抽取出实体关系“<姚明,出生地,上海>”。这些抽取出来的三元组集合,可以构建知识库,对问答系统,语义网,机器翻译等都有非常重大的意义。 现在互联网上有海量的中文数据,而且中文互联网用户数量巨大,对中文实体关系抽取的研究有着很好的应用前景。但是当前大部分实体关系的抽取研究都是处理英文数据,基于中文语料的工作很少。和英文相比,中文句子需要分词,中文语言也没有时态,字母大小写等特征,所以基于中文的实体关系抽取的研究更难,更有挑战性。本文针对中文实体关系抽取的方法进行了探索和研究,主要的创新和研究成果有: 1.构建了一个中文语义知识库。爬取百度百科和互动百科的网页数据,抽取其中结构化部分,转化为关系三元组<实体1,关系词,实体2>的形式存储起来,构建中文语义知识库。当给定的待抽取关系词在知识库中的频数大于某阈值,则认为该关系词为高频关系词,否则认为该关系词为低频关系词。 2.对于高频关系词的抽取,转换为序列标注问题。高频关系词在知识库中对应丰富的关系三元组集合,这些三元组数据可以采用打分策略在文本中回标候选句子,自动构建训练语料。采用关键词匹配策略在待抽取词条页面中定位到需要抽取的句子,训练条件随机场模型标注待抽取部分,然后根据标注的结果提取关系三元组。实验对比选择候选句子的不同策略,然后从准确率和召回率的侧重点给出不同的建议。 3.应用领域知识和规则进行低频关系词的实体关系抽取,该方法有效避免了低频关系词无法自动标注训练语料的问题。确定待抽取关系词前后实体的类别,扩充表达该关系的关键词库,借助实体类别词库数据,根据实体对和关键词在文本中共现的策略,抽取相应的关系三元组。另外,采用关联分析的方法学习规则,可以挖掘出非常丰富的关系词模板。 4.利用word2vec训练词向量进行中文实体关系的判断和抽取。利用google开源工具包word2vec,结合百度百科的文本数据,学习得到词向量,通过实验评估词向量的效果。根据词向量,学习得到待抽取关系词对应的关系矩阵,利用关系矩阵训练分类器,将实体关系抽取转换为二分类问题,通过分类结果判断实体对中是否存在特定的关系,来获取关系三元组。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。