尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 机器翻译是利用机器将一种自然语言转换为另一种自然语言的 过程,它是计算语言学的一个分支,涉及计算机技术、数学、认知科学、语言学、信息论等多门学科的交叉和联系,是人工智能的终极目标之一。汉藏机器翻译相关技术的研究,对于继承和弘扬民... 展开 机器翻译是利用机器将一种自然语言转换为另一种自然语言的 过程,它是计算语言学的一个分支,涉及计算机技术、数学、认知科学、语言学、信息论等多门学科的交叉和联系,是人工智能的终极目标之一。汉藏机器翻译相关技术的研究,对于继承和弘扬民族优秀文化,增进文化交流,寻求思想的沟通,服务国家一带一路战略,推动我国藏族地区社会、经济、教育和文化事业发展等有着十分重要的现实意义;能够促进藏语计算语言学的实质性发展,具有非常重要的科学研究价值和实际应用价值。 本文在通过构建高质量和内容丰富的汉藏双语平行语料库的基础上,对藏文长句分割技术、藏文地名识别技术、改进藏文字节对编码等关键技术进行了初步探索,力图通过优化汉藏神经机器翻译模型来提高翻译性能。具体而言,本文的研究内容主要包括以下几个方面: (1)语料库预处理方面:本文重点研究了藏文长句分割技术,归纳藏语句子边界识别规则,找出句子边界识别的难点,提出了融合藏语依存句法和基于Bi-LSTM(Bi-LongShort-TermMemory)+CRF(ConditionalRandomFields)的藏语长句子分割方法,对藏语长句进行了分割,实验表明,该方法有效地分割了藏文长句,F值达到99.42%。 (2)藏文命名实体识别方面:本文重点介绍了藏文地名识别技术,阐述了藏文地名的音节、触发词、地名后续词和格助词等特性适用基于CRF模型的地名识别。实验结果表明本文方法对藏文地名识别的准确率、召回率和F值分别达到了96.12%、81.92%和88.45%。为处理藏文地名词,本文在训练语料分词中融入了藏文地名识别技术,BLEU值达到30.46,提高了汉藏命名实体翻译的效果。 (3)模型改进方面:本文通过改进字节对编码算法,提出了带字数阈值的藏文字节对编码算法,优化了基于注意力机制的汉藏神经机器翻译模型。收集整理了100万汉藏句对和20万汉藏人名地名词典,训练了汉藏神经机器翻译模型。通过测试和验证,模型的BLEU值达到36.84。本文构建的模型的命名实体翻译效果要优于已商用汉藏在线翻译系统。 (4)系统改进方面:设计实现了基于注意力机制和改进字节对编码的汉藏神经机器翻译系统,优化了后端流程和程序,部署在阳光汉藏机器翻译网站,实现了阳光汉藏神经机器翻译系统V2的应用推广。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。