尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 数据到文本生成,即将结构化的数据进行概括抽象,生成能够满足人类阅读需求的文本,生成的文本应当符合基本的语法结构,流畅通顺,语义表达清晰准确。传统的模块化的生成框架将数据到文本生成任务显式的划分为内容规划、句子规划、文本实现三个模块... 展开 数据到文本生成,即将结构化的数据进行概括抽象,生成能够满足人类阅读需求的文本,生成的文本应当符合基本的语法结构,流畅通顺,语义表达清晰准确。传统的模块化的生成框架将数据到文本生成任务显式的划分为内容规划、句子规划、文本实现三个模块,串联的模块之间存在着误差累积的现象,并且模块中针对特定领域的任务设计了大量的人工设计的规则,导致文本生成框架受限于特定领域,不具有泛用性。基于深度学习的数据到文本生成模型能够跨领域应用,生成的文本质量较高,但是缺乏可解释性,现有的方法仍然不擅长生成连贯的长文本,生成的文本缺乏多样性,不够丰富。 本文通过对传统方法和深度学习方法的进行分析比较,综合二者的优点,在此基础上设计了一种能够生成多样化长文本的模型,本文的主要研究内容分为以下三部分: 首先,构建数据到文本生成数据集,收集来自电商领域专业人员撰写的高质量评价文案以及产品结构化的参数,通过文本匹配的方式对数据进行重新排列和分组,将长文本拆解成多个短句,通过对数据的预处理和修正,为后续生成多样化长文本任务提供高质量的数据基础。 其次,通过设计基于维度分组的文本生成模型,我们将传统的生成框架与深度学习的方法相结合,使用神经网络方法实现维度分组的过程,捕捉分组之间的依赖性,借此提高子句之间的连贯性,该过程等同于传统框架中的内容规划和句子规划。将整个文本生成任务分割成若干子任务,可以有效的对结构化数据建模,从而生成连贯的高质量用户评价文本。 最后,我们提出基于条件变分自编码器的分层生成模型,该模型是在上述分组规划模型的基础上进行改进,目标是提升文本生成过程中的多样性。通过将隐变量分别引入宏观的分组规划层面和微观的文本实现层面,可以有效的为潜在的多样性进行建模。文本解码器采用了注意力机制,目的是来解决长文本生成过程中上下文依赖消失的现象。除此之外,设计了词袋结构和KL退火算法,进一步提升了模型生成文本的多样性。通过对实验结果的对比和分析,表明模型能够生成高质量的多样化长文本。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。