尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 近年来,预训练语言模型(Pre-trainedLanguageModels,PLMs)的出现将自然语言处理(NaturalLanguageProcessing,NLP)带入了一个新的时代,“预训练+微调”成为了NLP领域的训练新范式。借助该范式,基于Transformer结构的PLMs在各类NLP任务上取得了巨... 展开 近年来,预训练语言模型(Pre-trainedLanguageModels,PLMs)的出现将自然语言处理(NaturalLanguageProcessing,NLP)带入了一个新的时代,“预训练+微调”成为了NLP领域的训练新范式。借助该范式,基于Transformer结构的PLMs在各类NLP任务上取得了巨大的成功,然而这些PLMs存在模型尺寸大和响应延迟高等问题,使得很难将它们部署在资源受限的边缘设备上。本文围绕PLMs的压缩和加速展开研究,以促进其在实践中的应用。 针对仅在微调阶段执行知识蒸馏的压缩方案所获得的学生模型性能较差的问题,提出了两阶段的知识蒸馏(KnowledgeDistillation,KD)框架TinyBERT,通过相继在预训练和微调阶段执行所设计的知识蒸馏方法TransformerDistillation,TinyBERT能够同时将教师模型的通用语言知识和任务相关知识迁移至学生模型,从而提升学生模型的性能。TransformerDistillation蒸馏方法将Transformer结构中的注意力矩阵定义为一种知识类型,使得学生模型能够直接捕捉所需的语法和语义模式。此外,TinyBERT设计了一个基于预训练语言模型的数据增强(DataAugmentation,DA)算法以提升学生模型在特定任务上的泛化能力。实验结果表明,在GLUE基准测试中,4层312维的学生模型TinyBERT4能够在实现教师模型BERTBASE96.8%性能的同时,使模型缩小7.5倍、推理加速9.4倍;相较于BERT4-PKD和DistilBERT4,TinyBERT4的性能平均至少提升4.4%,同时推理加速3.1倍、参数量减少72%。此外,与全精度模型相比,8-bitTinyBERT4的性能虽略微下降,但模型尺寸相较于教师模型BERTBASE实现了30倍的压缩。 针对启发式层映射策略的设计偏差导致蒸馏时学生模型性能较差的问题,提出了一种基于进化计算的层映射策略搜索方法ELM(EvolvedLayerMapping),通过搜索层映射策略为任务无关BERT模型蒸馏的学生模型提供更优的Transformer层监督信号,从而提升其性能。ELM使用遗传算法(GeneticAlgorithm,GA)作为进化搜索引擎,根据当前代层映射策略的表现探索性能更优的下一代策略。为了加速搜索过程,ELM设计了一个代理实验环境,在其中执行蒸馏时仅需使用小部分原始语料作为训练数据,并且挑选了三个代表性任务来评估层映射策略的优劣。实验结果表明:ELM搜索得到的层映射策略明显优于广泛使用的启发式策略,其对应的学生模型在GLUE基准测试中实现了教师模型BERTBASE99.4%的性能,同时模型参数减少了40%、推理速度提升了2倍,且相较于结构相同的其它基线模型,取得了不同程度的性能优势。 针对单一技术不足以有效地压缩语言模式更加丰富的多语预训练模型的问题,提出了一种结合剪枝(Pruning)和知识蒸馏技术的多语模型压缩方法LightMBERT,通过逐步地压缩多语预训练模型以提升学生模型的性能。首先,LightMBERT通过结构化剪枝教师模型mBERT来初始化学生模型,学生模型由于继承了mBERT模型的参数,因此具备了初步的跨语言知识;然后,LightMBERT通过知识蒸馏促使学生模型重新获得由于结构化剪枝所丢失的信息以进一步提升其跨语言能力。XNLI任务上的zero-shot跨语言测试结果表明,在相同压缩率下,LightMBERT的平均性能相较于基线模型至少提升了2.1%且和教师模型mBERT相当。此外,在另一种测试场景中,即同时存在丰富的源语言和少量的目标语言标注数据,LightMBERT通过在源语言与目标语言的混合数据上微调mBERT获得了跨语言能力较强的教师模型,并且通过下游任务上的蒸馏成功地将教师模型的跨语言能力迁移至学生模型,从而提升了学生模型在目标语言上的表现。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。