尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 终身学习旨在使用一个模型流式地学习任务,模型在学习到新任务的同时保证不遗忘已学习过的知识。近些年,得益于预训练语言模型的发布,终身学习在自然语言处理(NLP)领域(也称终身语言学习)的发展受到更多研究者的关注。研究者们主要从文本分类、... 展开 终身学习旨在使用一个模型流式地学习任务,模型在学习到新任务的同时保证不遗忘已学习过的知识。近些年,得益于预训练语言模型的发布,终身学习在自然语言处理(NLP)领域(也称终身语言学习)的发展受到更多研究者的关注。研究者们主要从文本分类、对话系统、机器翻译等任务上探索了单任务多领域场景下的终身语言学习。然而,随着人工智能应用逐渐走入人们的生活,研究者把目光投向多任务多领域场景下的终身语言学习,即使用一个模型流式地学习多种不同类型的NLP任务。 目前的研究主要在以知识蒸馏、冻结重要模块或者为新任务额外增加参数来实现多任务多领域场景下的终身语言学习。然而,已有的研究存在性能上与多任务学习有差距、模型参数增长量偏大、新任务学习时间效率低这个三个方面的不足,严重制约了终身语言学习的应用范围,因此,为进一步在NLP领域完善多任务多领域场景下的终身语言学习,本文围绕性能、空间效率和时间效率三个角度展开研究。论文的主要贡献和创新点总结如下: (1)基于无数据自蒸馏的终身语言模型设计方法 针对伪数据利用效率低且伪数据中噪声影响较大所导致的终身学习与多任务学习性能有差距的问题,本文提出使用自适应自多层对多层映射的蒸馏方法提升伪数据利用效率,并用过隐式分解生成过程以增强提升模型对噪声的鲁棒性。两种方法共同构成基于无数据自蒸馏(DFSD)的终身语言模型设计方法。DFSD首先针对伪数据利用效率低的问题,提出使用基于地球移动距离(EMD)的自蒸馏方法(SD-EMD),此方法可以自适应地估计任务在模型所有层中的知识分布,并通过自适应自多层对多层映射的方法将这些知识从教师模型传输到学生模型。实验结果表明,采用SD-EMD的模型可以用更少的伪样本达到与当前最先进模型相同或更好的性能。另外一方面,针对伪数据中噪声的影响,本文提出隐数据增强(HDA)的方法,通过分解伪数据的生成过程,进一步通过自举来减少伪数据和真实数据之间的偏差。同时提出了基于BLEU的伪样本混淆(CPS)方法来评价伪样本的质量。CPS的实验结果验证了 HDA可以防止模型过度偏向于新任务,同时保留更多先前学习的任务知识。实验结果同时表明HDA是一个具有普适性的方法,在其他基于LAMOL的基线模型上应用HDA都能得到显著的改善。SD-EMD和HDA共同组成DFSD,一方面在伪数据充足时可以取得超过多任务学习0.5个百分点的性能,另外一方面对比其他的终身学习,DFSD达到同样的性能只需要10-20%伪数据量。 (2)基于残差变分自编码器终身语言模型设计方法 针对基于模型参数可增长的终身学习方法中参数随任务数量增量较大的问题,本文提出基于残差变分自编码器(RVAE)终身语言模型设计方法:RVAE-LAMOL。在RVAE-LAMOL中,通过插入RVAE将不同的任务映射到一个有限的统一语义空间中,使得有偏差的任务可以通过少量的伪数据进行修正。为了更好的训练RVAE-LAMOL,本文还提出了一个新的训练策略:交替滞后训练(ALT)。ALT使得模型获得更好的性能并且对GPT-2中RVAE的插入位置具有鲁棒性。即ALT使得RVAE可以在GPT-2中的任意位置插入,大幅降低对任务先验知识的依赖,因此避免了在每层都插入RVAE,使得参数量的涨幅速度降低为其他全列插入方法的1/12。除此之外,为了加强样本内容与其任务特定开始符之间的相关性,还提出身份识别(ID)任务。经过实验验证,RVAE-LAMOL同样在伪数据量充足和不充足时都能较好地工作。伪数据充足的条件下,RVAE-LAMOL比多任务学习高出0.1个百分点。 (3)基于元认知的高效终身语言学习 针对终身学习在训练新任务时耗时高的问题,本文使用问题前置的数据格式或者快速偏置生成语义空间的方式构建了基于元认知的高效终身语言学习的方法,使得在缓解灾难性遗忘的同时不显著增加额外的计算时间。本文分别从两个角度提出了解决方法:1)提出一种新的问题前置(AQF)数据格式,这种格式利用自回归语言模型的特点,使得模型可以更高效地从数据中获取知识。另外,本文在AQF的基础上提出重放提问(RQ)任务,它可以加强模型对样本中问题的注意力,使模型有更大的概率生成任务对应的问题,进而生成更多的任务对应的伪数据。经实验验证,AQF是一种高效的数据格式,对单任务学习、终身学习、多任务学习均有显著的提升效果。单任务学习中,AQF数据格式尤其对本身属性为问答类型的任务可以提升至多8.8个百分点。终身学习时,AQF-RQ与多任务学习性能只相差0.36%。多任务学习时,AQF数据格式可以提高1个百分点。将AQF应用到其他基于LAMOL的方法中也都得到了 0.3-2个百分点的提升。2)提出了 Metac-Adapt的训练策略,同样几乎不需要增加额外的时间成本和计算资源。在生成旧任务的伪样本之前,Metac-Adapt使用旧任务问题的一个小型子集来调整模型,使得模型可以在更好的语义空间生成伪数据。实验结果表明,Metac-Adapt与多任务性能相当甚至略高,并且对比最简单版本的LAMOL,实现了训练时间零增长。 本文在终身语言学习方法中针对多任务多领域的场景,在低资源、数据噪声、模型新增参数灵活可控、数据高效、训练高效等方面丰富了终身语言学习的理论方法,为构建自然语言处理领域的通用终身学习系统提供了技术支撑。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。