尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 自然语言中一词多义现象是普遍存在的。词义消歧(word sense disambiguation,WSD)任务是依据上下文语境确定词的词义,词义消歧任务可以直接影响机器翻译(Machine Translation,MT)、信息检索(Information Retrieval,IR)等任务的性能。本文在机器学... 展开 自然语言中一词多义现象是普遍存在的。词义消歧(word sense disambiguation,WSD)任务是依据上下文语境确定词的词义,词义消歧任务可以直接影响机器翻译(Machine Translation,MT)、信息检索(Information Retrieval,IR)等任务的性能。本文在机器学习框架下研究汉语词义消歧和未登录词词义预测问题。具体而言,本文将从以下三个方面展开研究: (1)基于序列标注的汉语词义消歧。本文将词义消歧任务形式化为序列标注问题,研究不同序列标注模型和不同特征的消歧性能。实验结果表明:融入五级标注词义特征的条件随机场模型消歧效果较好。 (2)基于词向量的汉语词义消歧。为了进一步提高词义消歧性能,本文尝试将包含语义信息的词向量融入词义消歧中。一方面,利用上下文共现词频与句法依存信息缩减歧义词词义的候选数量,而后在神经网络模型下,通过计算学习获得的词义标记向量与歧义词向量的语义相似度确定词义;另一方面,我们对最大熵模型进行优化,并通过确定性区别词和语义相似度对语料进行扩展,以提高词义消歧的准确率。实验结果表明,利用扩展语料在神经网络最大熵模型的消歧效果最佳。 (3)基于词向量的汉语未登录词的词义预测。在词义消歧的基础之上,本文探索未登录词的词义预测问题,分为两个子问题:词义候选构造与词义预测。在构造词义候选阶段,本文分别采用基于词性、内部语素、语义相似度的方法以及多方法融合进行构造;在词义预测阶段,本文利用不同粒度的词向量语义相似度对候选的词义进行预测。实验结果显示:基于多方法融合的方法构造未登录词的预测词义效果最佳。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。