尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 命名实体识别是指识别出文本中特定的实体,它是信息抽取、信息检索、问答系统和机器翻译等自然语言处理任务的基础。命名实体识别结果的好坏直接影响着后续任务的效果。由于中文本身的特点,中文命名实体识别任务面临更多的困难。近年来,神经网络方... 展开 命名实体识别是指识别出文本中特定的实体,它是信息抽取、信息检索、问答系统和机器翻译等自然语言处理任务的基础。命名实体识别结果的好坏直接影响着后续任务的效果。由于中文本身的特点,中文命名实体识别任务面临更多的困难。近年来,神经网络方法在图像识别、语音识别和自然语言处理相关任务上取得了较好的效果,尤其长短时记忆网络-条件随机场模型在序列标注任务上取得了突破性的成果,但已有的研究并没有充分考虑汉语独有的特点,从而为中文命名实体识别性能的提升留下了空间。 另外,已有的中文命名实体识别方法研究主要使用新闻语料作为数据集,而随着互联网技术的蓬勃发展,人们越来越需要自动识别微博等社交媒体文本中的命名实体。微博作为代表性的社交媒体文本,由于其内容复杂、表达风格口语化等特点,从而使得中文微博命名实体识别的性能一直不佳。 因此,本文结合中文特点和微博文本的特殊性开展命名实体识别的方法研究。论文的主要工作和创新归纳如下: (1)提出了一种使用偏旁部首特征的由字构词的中文命名实体识别方法 中文命名实体识别任务中的传统机器学习方法大多需要人工选择特征模板,人工干预较强,模型的移植性较差,而目前兴起的基于神经网络的端到端的模型无需人工选择特征模板,模型的移植性强。已有的研究通过使用卷积神经网络或循环神经网络捕捉英文字符级别的特征,获得了较好的识别效果,受此启发,本文将汉字分解为偏旁部首,把偏旁部首看作汉字的最小语义单元,然后利用长短时记忆网络和条件随机场模型捕捉中文偏旁部首级别的特征,以达到提升中文命名实体识别效果的目的。实验表明,该方法可以有效提升中文命名实体识别的效果。 (2)提出了一种使用多通道长短时记忆网络-条件随机场模型的中文微博命名实体识别方法 如前所述,中文微博文本具有自己的特点,使用传统新闻标注语料训练后得到的模型,如果直接应用于微博文本,难以得到很好的结果。但是,已有的微博领域中文命名实体标注语料十分稀少,且标注成本大,很难获取大规模的中文微博命名实体标注数据集。为此,本文提出了利用已有的大量新闻领域标注语料和少量微博领域标注语料同时训练由字构词的长短时记忆网络和条件随机场模型,然后通过多通道结构分别捕捉新闻领域、微博领域和通用领域的特征,从而提升中文命名实体识别的效果。实验表明,该方法在实验数据集上取得了最好的结果。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。