[学位论文]
  • 史晓龙
  • 西安电子科技大学

摘要: 预训练语言模型近几年来在自然语言处理领域中实现了飞跃式地发展,但随着模型体积愈发庞大,预训练语言模型难以部署在资源受限设备与在线服务当中。知识蒸馏作为模型压缩的常用方法,通过训练一个规模更小的学生模型来学习预训练模型的语言知识,从... 展开

作者 史晓龙   授予学位单位 西安电子科技大学  
导师 权义宁 学位 硕士
学科 计算机科学与技术   国籍 CN
页码/总页数 1-84 / 84 出版年 2022
中图分类号 TP391.1
关键词 自然语言处理   预训练语言模型   知识蒸馏   注意力机制   最优运输   稀疏化矩阵  
机标主题词 蒸馏;语言模型;训练
机标分类号 O658.3;H08;G4
馆藏号 Y4033217
相关作者
相关关键词