尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 机器翻译是指利用计算机将一种语言自动翻译为另一种语言的技术,是自然语言处理领域最重要的研究方向之一。近10年来,随着深度学习的快速发展与广泛应用,神经机器翻译取得了巨大的成功,取代统计机器翻译成为学术研究和业界应用的主流技术。不同于... 展开 机器翻译是指利用计算机将一种语言自动翻译为另一种语言的技术,是自然语言处理领域最重要的研究方向之一。近10年来,随着深度学习的快速发展与广泛应用,神经机器翻译取得了巨大的成功,取代统计机器翻译成为学术研究和业界应用的主流技术。不同于统计机器翻译建立统计数学模型的做法,神经机器翻译基于神经网络建立翻译模型并使用梯度下降算法训练模型。神经机器翻译模型一般包含大量的参数,具有强大的学习能力,但也有容易过拟合的问题。模型往往过度地匹配特定的训练集数据,以至于牺牲了在其他数据上的表现。 为了缓解神经机器翻译模型的过拟合问题,研究者们提出了一系列正则化方法,包括约束模型词向量参数的词向量正则化方法、提高模型噪声鲁棒性的扰动正则化方法和优化模型训练标签的标签平滑方法等。这些方法取得了显著的效果,但也分别存在一些需要改进的问题。为了进一步解决神经机器翻译的过拟合问题,本文针对词向量正则化、扰动正则化和标签平滑三个研究内容分别提出了以下三个方法: 1.基于语义相关性的词向量正则化方法 神经机器翻译模型的词向量参数占总参数量的一半左右,具有较大的冗余度。一些正则化方法提出通过共享词表、增强源端一目标端词向量的对齐性等方式来规范词向量参数的学习。然而,这些方法通常依赖相同字符系统下的词形匹配或者外部对齐工具的辅助,在应用范围和使用的灵活性方面有较大的局限性。本文提出一种增强词向量语义相关性的正则化方法,该方法完全基于双语语料的内在特征,适用于所有翻译方向且不依赖外部的知识指导。具体而言,机器翻译的一个训练样本由一个源端句子和一个目标端句子组成,其中隐含了单语言的词共现信息和双语言之间的词共现信息。基于这两种共现信息,本文提出一个自编码的训练目标来同时促进词向量的单语相关性和对齐相关性。实验结果表明,本文的方法极大地增强了词向量参数的语义特征,显著提升了神经机器翻译模型的性能。 2.基于预测差异的扰动正则化方法 神经机器翻译模型过拟合的表现之一是对噪声的鲁棒性很差,在输入中添加少量的噪声就会导致模型的性能出现大幅度的下降。扰动正则化方法通过对训练样本添加噪声以提升模型在噪声数据上的表现,其隐含的前提是模型对原始样本的拟合程度总是高于对被扰动样本的拟合程度,但本文发现该前提并不总是成立。本文利用模型在受到扰动前后对目标词的预测差异分析了词级别样本的拟合情况,发现模型对相当一部分样本是相对欠拟合的,对这部分样本进行扰动正则化训练会损害模型的性能。为了同时缓解模型的过拟合和欠拟合问题,本文提出将输入层扰动引起的预测差异作为正则项训练神经机器翻译模型。在常用的数据集上,本文的方法相比现有的方法取得了巨大的提升,显著地改善了模型对噪声的鲁棒性。 3.基于条件变分自编码器的标签平滑方法 双语语料的相对稀缺和使用硬标签训练的方式导致了神经机器翻译模型对已知训练标签过度自信的问题。常规的标签平滑方法使用平均分布对硬标签进行平滑,其先验假设显然不是最优的。对于机器翻译任务而言,每个目标端词的平滑标签应符合其所在的语境。本文利用条件变分自编码器能够基于给定条件将数据标签编码到一个隐变量空间并重构出来的特点,为神经机器翻译设计了一个基于条件变分自编码器的平滑标签生成器。该生成器能够学习给定源端和目标端输入条件下的词级别标签的隐变量分布,并通过该分布实时采样隐变量并生成新标签,用于神经机器翻译模型的在线标签平滑。实验结果表明,本文的方法能够较好地缓解模型对训练标签过度自信的问题并提升模型的翻译性能。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。