尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 随着深度学习的发展,神经网络模型结构越来越复杂,这对内存和计算资源都带来更大的开销,而随着移动互联网和物联网的发展,模型轻量化的需求与日俱增,如何对当前的大模型进行压缩成了一个热门方向。 近年来,知识蒸馏算法在模型压缩上取得了不... 展开 随着深度学习的发展,神经网络模型结构越来越复杂,这对内存和计算资源都带来更大的开销,而随着移动互联网和物联网的发展,模型轻量化的需求与日俱增,如何对当前的大模型进行压缩成了一个热门方向。 近年来,知识蒸馏算法在模型压缩上取得了不错的效果,但仍然存在一些局限性,一方面,教师模型和学生模型之间由于结构和参数量上的差异,存在一种能力上的差距,这种差距会导致知识蒸馏任务的不充分,如何设计更有针对性的教师网络,是一个难题。另一方面,同样的学生模型在不同结构的教师网络的指导下,所表现出来的性能存在一定的差异性,相同结构的教师网络指导不同结构的学生,每个学生网络获取到的知识是不同的,这也存在知识蒸馏不充分的问题。 针对第一个问题,本文从蒸馏的教师端网络模型入手,对现有的知识蒸馏方法进行改进,提出了一种权值共享的注意力(Weight Shared Attention,WSA)算法,通过加权注意力和共享权重可以极大程度的丰富特征提取的信息,并基于这种注意力机制,提出了一种注意力知识蒸馏架构。针对第二个问题,根据现实生活中学生获取知识的方法,提出了一对多、多对一和多对多的知识蒸馏方法,即多教师蒸馏单个学生;一个教师蒸馏多个学生,同时学生之间相互学习;多个教师蒸馏多个学生同时,学生之间相互学习。本文在CIFAR-10、CIFAR-100和Mini-ImageNet数据集上进行了实验,证明了本文提出方法的有效性。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。