尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 深度学习技术在近几十年来得到高速发展,这一技术随即被应用在越来越多的领域中,自然语言处理也有诸多研究方向可以使用深度学习,文本生成就是重要方向之一。文本生成是一项基础性研究,能够在许多实际场景落地,例如提取文本摘要、文本风格转换、... 展开 深度学习技术在近几十年来得到高速发展,这一技术随即被应用在越来越多的领域中,自然语言处理也有诸多研究方向可以使用深度学习,文本生成就是重要方向之一。文本生成是一项基础性研究,能够在许多实际场景落地,例如提取文本摘要、文本风格转换、文本自动纠错等。 生成对抗网络是深度学习中一个备受关注的框架模型,现有的文本序列模型都具有数据离散的特点,将生成对抗网络直接应用于文本生成时,就会面临训练过程中无法通过反向传播完成参数更新的问题。另外,由于生成对抗网络的训练方式是把一个噪声分布映射在先验真实文本分布,但目前文本生成任务一般是字符级生成,这样的方式很容易出现生成文本重复性过高甚至模式崩溃的情况。最后,由于原始生成对抗网络中生成器的限制,训练过程中对于文本特征的提取能力有限,生成长文本的质量普遍较低。针对上述问题,本文提出了基于生成对抗网络的文本生成算法模型,主要工作内容如下: (1)本文基于序列生成对抗网络与自注意力机制的思想,提出了一种无监督的文本生成算法,生成网络融入了自注意力机制,在原始的Transformer模型上增加了使用高斯偏差的局部建模,改善了原模型不可并行化的问题,同时提升了捕获长距离文本特征的能力。同时目标函数使用惩罚最小化的机制,引入一种新方式来衡量Wasserstein距离,保证梯度不会消失,并且模式崩溃问题也得到改善。本文将新的模型在商品描述数据集上进行实验,判断在长文本方面的文本生成效果,实验结果证明,本文提出的生成模型与对比模型相比,生成的文本质量更高,文本多样性也更丰富。 (2)将本文提出的文本生成模型应用于诗歌生成领域,以证明模型的普适性。针对诗歌特有的固定字数、尾词押韵与韵律声调规则,本文在上述工作的基础上,引入了拼音汉字对照表,并在算法中增加了尾词押韵判断部分,使得不仅能够保证生成诗歌的字数符合规则,格律音调上也能够最大程度符合诗歌规律。本文在唐代绝句诗词数据集上进行对比实验,与基线模型相比,本文提出的算法模型在综合评价尤其是押韵部分,取得了更高的分数。实验数据充分验证本研究提出的模型在文本生成领域的价值,也为未来工作的研究方向提供参考。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。