尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 近年来,深度学习的兴起为基于深度神经网络的文本生成方法的发展提供了新的契机。作为文本生成问题中的代表性任务,自动文本摘要和自动文本简化旨在提取出原始文本的核心内容,并生成一段可读性强且易于理解的文本,是应对信息过载、阅读困难等实际... 展开 近年来,深度学习的兴起为基于深度神经网络的文本生成方法的发展提供了新的契机。作为文本生成问题中的代表性任务,自动文本摘要和自动文本简化旨在提取出原始文本的核心内容,并生成一段可读性强且易于理解的文本,是应对信息过载、阅读困难等实际问题的高效解决方案。目前主流的神经网络方法多采用基于循环神经网络的编码器-解码器框架,存在原始文本表示欠佳、生成句与原始文本语义相关性不高、生成句子冗余、集外词生成困难等诸多问题。 针对这些问题,本文探究了基于深度神经网络的文本生成方法,在自动文本摘要和文本简化等任务上开展了研究工作,设计并实现了一种基于改进集束搜索的生成式摘要生成方法和一种基于子词单元的端到端文本简化方法,分别在多个数据集上进行了实验,实验结果表明了模型在任务上的有效性。 本文的主要贡献具体包括: (1)设计并实现了一种基于改进集束搜索的生成式摘要方法,其中包括:一种新型混合编码器结构,利用循环神经网络学习输入文本序列中的时序信息和长距离依赖,同时利用卷积神经网络捕获输入序列的上下文信息;两种用于摘要解码的集束搜索算法,即得分函数结合了语言模型和语法形式惩罚策略的语法增强集束搜索算法和引入了一个惩罚因子的多样性集束搜索算法;一种基于关键短语的重排序机制,利用候选句与原始文本中重合关键短语的重要性得分对候选句进行排序。在CNN/Daily Mail等多个数据集上的实验表明了该模型在文本摘要任务上的有效性。 (2)设计并实现了一种基于子词单元的端到端文本简化方法,利用字节对编码算法提取子词单元并构建词表,减小词表规模以提升序列到序列模型的效率,利用子词单元关联形态相近的词语,解决罕见词训练及集外词生成问题。将该模型应用到PWKP和WikNet等数据集上,实验结果与词语级方法相对比表明了本模型的有效性。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。