尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 文本生成在自然语言处理领域中是一个非常重要的任务,其致力于使用计算机生成贴近人工写出的高质量文本。文本生成也有着非常广泛的应用,如机器翻译、文本摘要、情感文本生成等。近年来涌现出了很多优秀的生成式模型,如变分自编码器和生成对抗网络... 展开 文本生成在自然语言处理领域中是一个非常重要的任务,其致力于使用计算机生成贴近人工写出的高质量文本。文本生成也有着非常广泛的应用,如机器翻译、文本摘要、情感文本生成等。近年来涌现出了很多优秀的生成式模型,如变分自编码器和生成对抗网络,它们在诸多文本生成任务上都展现出了非常优异的性能,但是仍然面临着一些挑战。基于变分自编码器的文本生成模型所输出样本的语义较为含糊,而基于生成对抗网络的文本生成模型则存在着如训练稳定性低、合理性不足以及模式崩溃等缺陷。基于生成对抗网络的方法在实际的文本生成应用中也存在不足,如在生成式文本摘要中,传统基于生成对抗网络的方法仅能提高生成摘要的真实度,但无法保证其与输入源文本间的语义一致性。 针对基于对抗式学习的文本生成技术,本文分别从算法的鲁棒性角度和应用角度进行研究。具体地,在鲁棒性方面,就稳定性不足及合理性不足提出解决方案;在应用方面,就生成式文本摘要中语义一致性不足及多类别文本生成中标签信息利用不充分提出解决方案。本文的主要贡献包含以下四个部分: 首先,针对对抗文本生成模型训练稳定性不足的问题,本文在机器翻译任务上提出了基于自省的变分自编码模型。具体而言,该方法在传统的变分神经机器翻译模型的基础上引入对抗训练范式来实现自省式学习,目标是将生成对抗网络中的生成器和判别器通过变分自编码器的思想联合起来,从而保证训练的稳定性。不同于传统变分神经机器翻译模型,该模型中的推理器能够通过高层级隐变量来评估其对应输入目标语言句子的质量,并对生成的目标语言句子和真实的目标语言句子进行区分。相应地,该方法也促使模型中的解码器生成更加真实的目标语言句子。大量的实验结果表明,该方法能够有效缓解生成对抗网络训练不稳定和变分自编码器语义模糊的问题,且相比于其它基于变分自编码器的模型而言,该模型可以实现显著的性能提升。 其次,针对对抗文本生成模型合理性不足的问题,本文提出了一种基于正例无标签学习的对抗文本生成算法。在传统基于生成对抗网络的文本生成模型中,真实文本被认为是正例样本而生成文本则被认为是负例样本,且这种绝对的正负例原则贯穿整个判别器的训练过程。然而实际上,生成文本的质量会随着训练过程而不断提高,其中一些生成文本的质量甚至与真实文本相当。因此,将生成文本视为无标签样本是更合理的假设,即认为生成文本包含高质量部分和低质量部分,且其中高质量部分的真实性逼近于真实文本。本文按照该思路重新定义了生成对抗网络中判别器的优化目标,即通过真实文本的指导来识别出生成文本中的高质量部分,并引导生成器去优化低质量部分。大量实验结果表明,该方法在多个评测指标上为模型带来了明显的性能提升。 然后,针对生成式文本摘要中语义一致性不足的问题,本文提出了一种基于孪生生成对抗网络的语义保留生成式文本摘要模型。与一般基于生成对抗网络的生成式文本摘要模型不同,本文提出的方法不仅可以提高生成摘要的真实度,还可以保证生成的摘要与输入源文本之间的语义一致性。模型中的判别器由一组孪生网络构成,其通过编码器输出表征间的余弦相似度来捕捉输入源文本与摘要文本之间的语义一致性。该判别器的目标是在尽可能提高输入源文本与真实摘要间的语义一致性的同时,降低输入源文本与生成摘要间的语义一致性。相应地,模型中的生成器将在判别器的指导下生成与输入源文本语义一致性更高的摘要。多个数据集上的实验结果表明,该模型相较于基线模型实现了明显的性能提升。 最后,本文提出了一种基于对比学习的对抗多类别文本生成模型。现有的基于生成对抗网络的多类别文本生成模型主要考虑文本嵌入与对应的固定独热标签之间的关系(“数据-类别”关系),如将交叉熵损失函数作为训练目标。不同于此,本文提出的模型引入了对比学习的思想来考虑更加灵活的“数据-类别”关系,并进一步考虑了文本数据间的关系(“数据-数据”关系)。具体而言,模型中的判别器的目标是拉近文本嵌入与其对应的类别标签嵌入之间的距离,同时拉近属于同一类别标签的不同文本嵌入之间的距离。相应地,模型中的条件生成器可以在判别器的指导下生成包含更加丰富的类别信息的文本。大量的实验结果表明,该模型在多个评测指标上相较于基线模型得到了明显的性能提升。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。