尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 随着语言模型建模能力的增强,使用机器生成流畅的句子或片段已经不再困难,然而当长度增加时,生成文本往往难以保持原有的高质量,开始出现严重的不一致和退化问题。究其根本原因,一是由于语言模型对自然文本的建模存在偏差,无法保证预测的概率分... 展开 随着语言模型建模能力的增强,使用机器生成流畅的句子或片段已经不再困难,然而当长度增加时,生成文本往往难以保持原有的高质量,开始出现严重的不一致和退化问题。究其根本原因,一是由于语言模型对自然文本的建模存在偏差,无法保证预测的概率分布总是符合上下文语境,导致生成的词语与前文不一致或不相关。二是解码算法没有对语言模型的偏差合理规避,使得不一致或不相关问题随长度增加而逐渐累积,最终偏离了原有质量。基于以上原因,本文分别从语言模型和解码算法两方面对提高文本一致性和长文本生成质量展开了研究,其主要内容如下: (1)在Transformer-XL基础上改进并设计了基于全局记忆的可控长文本生成模型,它将Transformer-XL的Memory分割为本地化记忆和全局化记忆两部分,既继承了Transformer-XL对长文本建模的优势,又能实现可控文本生成,内容文本对于同一控制信息的依赖还能提高一致性,改善长文本生成质量。 (2)设计了一个基于采样的启发式树搜索解码策略,它包括生成器和评估器两个构件,其中生成器用于生成句子,评估器用于给句子打分,算法以句子为单位对生成过程进行控制,得分低的句子会在后续解码中被舍弃。通过额外的评估器评分和独有的回退机制,基于采样的启发式树搜索算法能够尽量地避免偏差在生成文本中的积累,特别是在生成长文本时具有极大优势。 (3)从提高一致性和灵活性考虑,分别设计了温度核采样和带采样的多样集束搜索算法。其中温度核采样是核采样算法的改进版本,以增加一行代码的代价大幅提高了一致性;带采样的多样集束搜索算法解决了多样集束搜索总是产生固定化输出的问题,提高了生成的灵活性。此外,本文还设计了一种改进的重复惩罚策略,它根据重复程度动态地计算惩罚因子,能够更彻底地避免文本重复问题。 (4)针对以上方法进行了全面的实验评估,证明了改进方法的有效性。同时应用改进的模型和改进的算法时,其BLEU得分相较于GPT2提升约33%,与人类文本在一致性得分上的差距相比于基线方法缩小了一个量级。最后,基于以上研究设计并实现了一个开放式文本生成系统,该系统集成了多种解码算法,允许生成时自由选择。系统还提供了模型训练和文本评估功能,能够满足各开放式文本生成任务的基本需求。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。