摘要:
随着互联网的急剧发展,网络信息和数据在不断的增加,人们对信息的需求也越来越大。因此,如何从互联网中快速有效的获取人们想要的信息成为了关键问题。命名实体识别是信息抽取技术的基础,对信息检索、搜索引擎、问答系统和机器翻译的研究和应用都能起...
展开
随着互联网的急剧发展,网络信息和数据在不断的增加,人们对信息的需求也越来越大。因此,如何从互联网中快速有效的获取人们想要的信息成为了关键问题。命名实体识别是信息抽取技术的基础,对信息检索、搜索引擎、问答系统和机器翻译的研究和应用都能起到促进作用。 中文命名实体识别的研究相对于英文来说,有着很多的不同和困难。中文文字之间没有空隙,名实体识别之前需要先进行分词;中文的字没有词形的特征,词的信息太少;构词方式复杂,命名不规范;并且词汇量巨大,不断有新的名实体产生。这些问题都导致现阶段中文名实体识别的效果不是很理想。 本文基于最大熵模型的基础上,提出了两种序列标注的解析方法:tagbeam和listbeam方法。两种方法通过在解析过程中保存较优的k个结果,从而能够有效地避免在viterbi方法中最优结果可能过早的被丢掉的问题,可以有效地提高了系统的性能。 文章针对中文名实体词汇量巨大的问题,从人民日报、新华日报、和新闻网站上收集了大量的人名、地点名和组织机构名,组成词典。从而在训练最大熵模型时,构建了许多基于词典的特征,包括名实体特征,前后缀特征和组合特征。然后,系统通过一个特征递增选择算法,在SIGHAN中文名实体语料上进行了大量实验,取得了较好的效果。 针对单个分类器模型的不足,文章采用了两种叠加方法来集成多个最大熵分类器:基于乘法规则的融合方法和基于最大熵模型的叠加序列标注方法。实验对比表明,基于最大熵模型的叠加序列标注方法有效的提高了识别的效果。 最后,我们实现了一个基于网络的中文命名实体识别系统,共包括从新闻网站上收集新闻网页,网页净化,中文名实体识别、以及未登陆词和热点词的识别四个步骤。系统可以实现中文命名实体识别,未登录词识别(新词发现)和热点名词识别等功能。
收起