摘要:
跨语言信息检索(Cross Language Information Retrieval,CLIR)即可用一种提问语言检索出用另一种语言书写的信息的检索方法。跨语言信息检索的研究目的在于减少信息检索中语言障碍带来的困难,提高人们对知识的利用率,提高获取信息的效率。跨语言信...
展开
跨语言信息检索(Cross Language Information Retrieval,CLIR)即可用一种提问语言检索出用另一种语言书写的信息的检索方法。跨语言信息检索的研究目的在于减少信息检索中语言障碍带来的困难,提高人们对知识的利用率,提高获取信息的效率。跨语言信息检索是当前信息检索领域一个前沿的热点研究领域。 本文基于可比语料库研究跨语言信息检索问题,主要工作和贡献包括以下两个方面: 第一,提出了一种改进的基于可比语料库抽取双语词典的方法,提高了双语词典的抽取效果。传统的基于可比语料库的词典抽取算法很少用到可比语料的对齐信息,即使有用到,也只是利用严格的一对一的对齐关系,这种严格的对齐关系近似于将可比语料转化成平行语料,耗费巨大,而且,在真实的语料中这种严格的一对一关系存在并不多,这种严格的对齐关系大大减少了可利用的语料规模。在词典抽取模块中,本文将词语之间的共现信息考虑在内,将传统的上下文信息的特征与语料的伪对齐信息融合在一起,计算两篇文档的对齐程度并设定一个阈值,认为所有大于这个阈值的两篇文档之间具有伪对齐关系,从而计算出这些词语的共现度,将利用词语的共现信息计算得出的词语相似度与传统的利用上下文信息构建上下文向量计算得出的相似度通过互信息公式融合成一个量化指标,并以这个指标衡量两个词是否互为翻译。实验表明改进的算法自动抽取效果有较显著的提升。 第二,本文将抽取出来的双语词典融入到现有的跨语言信息检索模型中,改进了检索性能。先前学者的研究中已经证明经典的基于信息的对数logistic信息检索模型在跨语言信息检索领域的性能超出其他的信息检索模型,通过对比是否将抽取到的双语词典加入到该模型中,得出融入了词典的模型效果更好。实验表明,这种融入策略可以明显提升系统的检索性能。
收起