尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 跨语言文本分类是有效地组织多语言信息资源的关键技术。跨语言文本分类技术可以消除语言的差异给人们带来的信息检索和文本分类的困难,可以帮助人们更好地理解语言信息,并有利于知识的交流与共享,推动经济和社会的发展与进步。基于双语词嵌入模型... 展开 跨语言文本分类是有效地组织多语言信息资源的关键技术。跨语言文本分类技术可以消除语言的差异给人们带来的信息检索和文本分类的困难,可以帮助人们更好地理解语言信息,并有利于知识的交流与共享,推动经济和社会的发展与进步。基于双语词嵌入模型的方法作为当前主流的跨语言文本分类方法,在对双语单词的向量表示中嵌入了上下文以及跨语言信息。但是对一词多义的单词用一个向量表达多种含义,会带来歧义性问题,进而会影响到跨语言文本分类的结果。针对上述问题,本学位论文提出了双语主题词嵌入模型,解决了一词多义引起的歧义性问题,并利用深度学习算法提高了文本分类精度。 首先,收集了36万句子级别对齐的中朝平行语料,并从句子对中抽取出词对齐信息,构建了在形式上是句子对齐,内容上是词对齐的用于训练双语词嵌入模型的平行语料。同时,收集了4000余篇平行文本用于进行跨语言文本分类。 其次,将对单词的表示有自适应多原型特性的主题模型与双语词嵌入模型进行结合,提出了双语主题词嵌入模型。利用本文提出的模型对上一步整理的语料进行建模,得到了映射到同一个词嵌入空间中的两种语言的单词表示,并且针对单词的不同语义得到了不同潜在主题概念的描述。 最后,结合深度学习文本分类算法,将通过双语主题词嵌入模型得到的双语单词的词嵌入表示作为输入进行了跨语言文本分类,通过一种语言的文本对分类器进行训练,而用另一种语言的文本进行测试分类。 通过本文提出的模型训练出的双语单词词嵌入表示,对包含多个词义的单词中的每个词义都有着具体的词嵌入表示。实验表明,本文提出的双语主题词嵌入模型结合深度学习文本分类算法在跨语言文本分类中准确度最高达到了91.76%,优于其他经典的跨语言文本分类方法。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。