尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 知识蒸馏作为一种高效的模型压缩技术,在深度学习的诸多领域受到了广泛的关注,例如计算机视觉、自然语言处理以及语音识别等等。其关键在于将知识从一个庞大而复杂的教师网络提取出来,在随后的训练过程中迁移至一个小型的学生网络。然而,现有的知... 展开 知识蒸馏作为一种高效的模型压缩技术,在深度学习的诸多领域受到了广泛的关注,例如计算机视觉、自然语言处理以及语音识别等等。其关键在于将知识从一个庞大而复杂的教师网络提取出来,在随后的训练过程中迁移至一个小型的学生网络。然而,现有的知识蒸馏方案大多只考虑通过特定的蒸馏策略从实例特征或实例关系中提取某一种知识进行学习,并未考虑探索不同类型的知识通过不同的蒸馏策略进行迁移的方案,本文主要做出如下三个方面的工作: (1)为了解决复杂的大型教师难以训练的情况,提出基于多知识迁移的协作式知识蒸馏(CKD-MKT)方法。CKD-MKT方法无需提前训练大型的教师模型。CKD-MKT利用了一个多重知识迁移框架,将自我蒸馏与在线蒸馏策略相结合,通过互相协作和自学的方式互相指导,有效地融合了不同类型的知识,使多个学生网络从个体实例和实例关系中学习知识。通过学生网络之间的互相学习和学生网络自身的自学习提升模型的性能。开展在五个图像数据集上的实验表明,所提出的CKD-MKT方法明显优于目前最先进的知识蒸馏方法。 (2)虽然注意力机制对于知识蒸馏过程中模型性能的提升有非常积极的作用,但是深度神经网络在不同的中间层所关注到的信息是不同的。具体来说,神经网络在浅层关注的是物体的边缘、位置等具体信息(例如眼睛、鼻子等),随着网络层数的加深,其关注的信息也越来越抽象(例如整张面部)。因此,基于多层多注意力的知识蒸馏(HMAT)方法提出在神经网络不同的层上使用不同的注意力知识,使得教师网络将每一层所关注的不同信息迁移给学生网络。通过这种方式,学生网络能够从教师网络处获取更加全面的注意力知识。HMAT方法在图像分类、目标检测、图像检索三个不同任务上验证了其有效性。 (3)现有的关系知识蒸馏方法是通过对单个样本或者对由样本生成的特征构建关系,并将构建好的关系作为知识在训练过程中从教师网络迁移给学生网络。通过这种方式无法区分特征图中的关键区域。因此,基于注意力的样本关系知识蒸馏(ASCKD)方法提出在注意映射图上构造样本关系。ASCKD可以通过关注重要的样本区域来建立样本之间的相关性。它可以将模型关注的区域连接起来,同时也可以很好地捕捉任意两个样本之间的关键区域的关系。因此,在知识蒸馏的过程中,教师网络可以向学生网络传递更丰富、更健壮的知识。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。