尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 预训练语言模型近几年来在自然语言处理领域中实现了飞跃式地发展,但随着模型体积愈发庞大,预训练语言模型难以部署在资源受限设备与在线服务当中。知识蒸馏作为模型压缩的常用方法,通过训练一个规模更小的学生模型来学习预训练模型的语言知识,从... 展开 预训练语言模型近几年来在自然语言处理领域中实现了飞跃式地发展,但随着模型体积愈发庞大,预训练语言模型难以部署在资源受限设备与在线服务当中。知识蒸馏作为模型压缩的常用方法,通过训练一个规模更小的学生模型来学习预训练模型的语言知识,从而在保证模型性能的前提下缩小模型的体积。传统的知识蒸馏策略采用固定的层级映射且蒸馏过程十分耗时,学生模型不仅生成过程效率低下,而且难以学习到原始模型全部的语言知识。同时,部署在生产环境中的语言模型需要进行周期性微调,而微调过程的内存开销十分庞大,造成模型频繁更新困难,缺乏时效性。 本文针对知识蒸馏和微调过程中效率低下的问题,通过改进蒸馏策略和稀疏化注意力权重矩阵的方法,改善传统知识蒸馏模型性能。具体工作包括以下两点: (1)针对BERT-EMD模型在Transformer层知识蒸馏计算速度缓慢的问题,本文提出基于对偶EM(EarthMover)距离的BERT知识蒸馏模型。首先根据最优运输理论,介绍基于对偶EM距离进行知识蒸馏的BERT语言模型的整体架构,通过将老师层级和学生层级视为权重分布,学习得到一个最优转移矩阵,来表示不同层级的重要性,该策略能够使每一层学生层学习到所有老师层的语言知识;此外,基于坎托罗维奇理论,在数学层面分析了EM距离的表现形式、约束条件及其优势;最后,引入基于增量填充的两阶段法求解对偶EM距离,通过修改和微调两个阶段得到最优转移矩阵。实验结果表明,在英文通用语言基准测试数据集以及今日头条中文文本分类数据集上,相较于BERT-EMD4,本文提出的模型平均知识蒸馏时间减少10%。 (2)针对BERT模型微调过程中注意力权重冗余、内存占用高、推理速度慢的问题,本文提出基于ReLU和均方根归一化的BERT微调模型——SparseReLU-SelfAttentionFine-tuning(SRSAF)模型。首先,针对softmax函数计算注意力权重混乱、计算低效的问题,ReLU函数能够截断不相关的信息流,产生真正的零注意力权重,实现注意力矩阵稀疏化,降低模型微调过程中的内存开销;此外,针对ReLU函数梯度不稳定导致优化失败的问题,引入均方根归一化方法,根据均方根统计量对总输入进行正则化,确保模型输出的鲁棒性,节约计算开销;最后,引入BertViz可视化工具对提出的模型进行可视化分析,通过对不同层级可视化,验证了本文提出模型具有稀疏性。实验结果表明,在英文通用语言基准测试数据集以及今日头条中文文本分类数据集上,相较于BERT-EMD4,本文提出的模型性能提升35%,平均微调时间降低7%,显卡显存占用率降低15%。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。