尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 文本生成旨在自动生成或抽取合乎规范的、符合语言规则的文本,是自然语言处理领域的一大挑战。自然语言处理技术往往属于认知领域的探索,并且语言的理解通常需要上下文相关的场景或者大量的先验知识作为参考。随着语言模型的发展,文本生成模型常被... 展开 文本生成旨在自动生成或抽取合乎规范的、符合语言规则的文本,是自然语言处理领域的一大挑战。自然语言处理技术往往属于认知领域的探索,并且语言的理解通常需要上下文相关的场景或者大量的先验知识作为参考。随着语言模型的发展,文本生成模型常被建模成序列到序列的Encoder-Decoder模型。文本生成模型主要分为生成式模型和抽取式模型,典型的文本生成模型往往离不开最大似然估计方法的范式,根据前序生成的文本预测当前时刻的文本。然而,大多数的生成模型忽略了无法观测或者缺失的数据的影响,即忽略了隐变量的重要性。基于对隐变量模型的探索,本文分别对生成式和抽取式的文本生成模型进行研究,主要研究内容如下: (1)对于生成式模型,本文通过对生成对抗网络的研究对文本生成模型形式化建模,提出一种Encoder-Decoder-Discriminator的文本生成模型架构。并且通过对变分自编码器模型的研究,提出了基于隐变量的文本生成模型LatentGAN模型。该模型首先通过引入隐变量和近似后验分布的假设,获取文本的潜在特征分布,解决生成对抗网络多样性不足的问题。其次通过引入对抗式地训练,缓解变分自编码器生成文本质量不高的问题。本文设计并实现了LatentGAN模型,生成器模型采取长短期记忆网络架构;判别器模型采取卷积神经网络进行二分类判断。并且引入强化学习定义奖励函数的思想,定义生成器的损失函数。并基于中文诗词数据集进行实验,实验证明了该模型相比于其他方法的有效性。 (2)对于抽取式模型,本文将自然语言处理的关系抽取任务建模成基于隐变量(关系)的抽取式文本生成模型,提出一种基于张量分解的关系抽取方法TDRE模型。该模型将抽取的三元组建模成张量的形式,能够处理实体关系抽取中的多标签关系实体对,解决关系标签的重叠问题。并且本文提出基于DEDICOM张量分解的关系抽取模型,该模型在关系维度上对抽取模型进行分解能够辅助获取关系与关系之间的内在联系。本文采用条件随机场模型进行实体识别,双向长短期记忆网络进行关系分类,DEDICOM分解模型进行关系抽取。并基于NYT10数据集,CoNLL04数据集和ADE数据集进行实验,实验结果表明TDRE模型的结果比目前最优模型的效果更优,证明了基于关系维度的张量分解方法的有效性。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。