尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 受益于自注意力模块,Transformer架构在许多计算机视觉任务中表现出非凡的性能。与主流的卷积神经网络相比,视觉Transformer通常具有用于提取强大特征表示的复杂结构,虽然网络性能得到提升,但通常需要更多的计算资源,在移动设备上更难开发。本研... 展开 受益于自注意力模块,Transformer架构在许多计算机视觉任务中表现出非凡的性能。与主流的卷积神经网络相比,视觉Transformer通常具有用于提取强大特征表示的复杂结构,虽然网络性能得到提升,但通常需要更多的计算资源,在移动设备上更难开发。本研究探讨了在视觉Transformer上实现模型压缩算法的可行性,以三大模型压缩算法——网络剪枝、参数量化和知识蒸馏为切入点:通过剪枝对原始网络进行结构上的精简,通过量化将高精度的输入和权重参数表示为低精度,通过知识蒸馏把高精度的大型网络中包含的有用信息迁移到轻量化网络中。通过上述方法实现对视觉Transformer的压缩,以便部署到FPGA等硬件平台上。本文的主要工作包括如下三个方面: 1、提出了一种视觉Transformer剪枝方法,该方法可以识别Transformer每层中维度的影响,然后执行相应的修剪。通过促进Transformer维度的稀疏性来自动体现出重要的维度,为了实现更高的剪枝率,裁剪掉大量重要性分数较小的维度,而不会显著降低准确度。视觉Transformer剪枝的流程如下:1)使用稀疏正则化进行训练;2)根据预定义的剪枝率修剪特征的维度;3)微调。在ImageNet数据集上对所提算法的参数和每秒浮点运算数进行了较好的评估和分析,验证了该方法的有效性。 2、提出了一种有效的视觉Transformer后训练量化算法,量化任务可以被视为分别为权重和输入找到最佳的低位量化步长。为了保持注意力机制的功能,在传统的量化目标中引入了排名损失,旨在保持量化后自注意力结果的相对顺序。深入分析了不同层的量化损失与特征多样性之间的关系,并利用每个注意力图和输出特征的核范数探索了混合精度量化方案。在多个基准模型上验证了所提方法的有效性。例如,在进行8位混合精度量化后,可以在ImageNet数据集上使用DeiT-Base模型实现81.29%的Top-1准确率,这优于最先进的后训练量化算法。 3、探索了一种基于图像块级流形的视觉Transformer知识蒸馏方法,该方法可以同时计算教师和学生模型中的图像内、图像间和随机采样的图像块级别的流形空间,通过图像和分割的图像块之间的关系从教师Transformer中挖掘有用信息。在几个基线上进行的实验结果证明了所提算法在提取具有更高性能的轻量Transformer模型方面的优越性。例如,可以在ImageNet数据集上使用DeiT-Tiny模型实现75.06%的Top-1准确率,这优于现有的视觉Transformer蒸馏方法。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。