尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 作为机器学习中当前研究和应用最为广泛的网络模型之一,卷积神经网络在科学研究和民众日常生活的各个方面均展现出了极为广泛的应用前景。基于其权重值共享的网络结构特性,卷积神经网络在模式识别、语音识别等领域的表现尤其突出。然而,随着应用环... 展开 作为机器学习中当前研究和应用最为广泛的网络模型之一,卷积神经网络在科学研究和民众日常生活的各个方面均展现出了极为广泛的应用前景。基于其权重值共享的网络结构特性,卷积神经网络在模式识别、语音识别等领域的表现尤其突出。然而,随着应用环境的复杂化以及精度要求的不断提高,网络模型的结构愈加复杂,深度也不断加深,因此,深层卷积神经网络在处理相关任务时,面临着轻量化、精确性以及实时性等方面的严峻挑战。 针对当前研究所面临的问题与挑战,本文从提高算法实时性出发,以平衡运算资源、存储资源与算法精确度为重点,从算法优化、硬件加速方案以及存内计算三个方面,综合研究了深层卷积神经网络的优化及加速技术。本文系统地研究并解决了深层卷积神经网络的轻量化、边缘设备部署的资源瓶颈与灵活性、以及传统冯诺依曼架构的数据存取能耗等核心理论与重点问题。主要的研究成果如下: 首先,为了满足当前应用对深层卷积网络兼顾轻量化与更高的判断精度以及更丰富的信息提取的需求,本文采用输出密度图的网络结构,通过易堆叠的3×3卷积网络层形成单列、深层的网络模型,以扩张卷积层替代了应用广泛的全连接层,形成了结构简单的卷积网络模型,并生成了高质量的密度图。在完成网络模型设计后,本文将其在当前主流的三个人群计数数据集上进行了验证。其中,在应用最为广泛的ShanghaiTech数据集的两个子集上,本文所提出的网络模型分别取得了68.2和10.6的平均绝对误差(MAE),相较于当前其他优秀的网络模型,在精度上实现了极大的提升。 接下来,本文设计了一种基于FPGA的半定制硬件加速方案,以期解决深层卷积神经网络部署至移动端及边缘设备时面临的运算资源和存储资源两个最主要的瓶颈。本文特殊设计的运算单元阵列通过提升乘法器使用率的方式实现了运算资源的节约,集成特殊网络功能层的片上缓存进一步减少了运算资源占用,而结合深层卷积网络中的稀疏特性所设计的数据载入方案则提升了有限片上存储资源的利用率。最终,在大幅降低DSP单元占用率的情况下,在VGG-16网络模型的卷积层和全连接层分别取得了1.57?10-3以及1.31?10-3的吞吐密度。 此外,为应对当前网络模型的多样化,本文设计了可适应多种网络模型的整体可配置硬件加速电路,具有高灵活性、高能效,运算及存储资源消耗低的特点。设计了可配置的运算单元阵列,以适应多种尺寸的卷积核,提高了电路的灵活性;可配置的片上缓存以及相应的缓存分配方案有效降低了数据存取需求。提出了针对卷积层和全连接层优化的数据载入综合方案,提升系统运行效率的同时降低了系统功耗。通过对VGG-16以及ResNet网络模型进行部署验证,本文提出的可配置硬件加速器在VGG-16上保持了如上的吞吐密度,并在ResNet-18与ResNet-152网络上分别取得了1.03×10-3与1.39×10-3的吞吐密度,验证了本文提出的加速方案的高灵活性。 最后,为了解决传统冯诺依曼架构中数据存取所带来的延时及功耗问题,基于相变存储器件的物理特性,本文将卷积操作置于存储器内部执行。在对器件表征电导态的特性以及权重映射至器件方案的研究基础上,本文针对器件特性对卷积神经网络在推理阶段精度的影响进行了深入探索和研究,从电导态的数量、线性度、以及利用率三个方面综合对比分析了各种特性的影响以及相互之间的制约关系,提出了针对性的优化方案并进行了验证。在浅层的LeNet-5网络上,取得了99.16%的推理精度,在本文提出的单列深层卷积网络模型上,同样取得了16.2的MAE的高精度。最终,通过将以上优化策略应用在VGG-16网络上,取得了85.74%的Top-5网络精度,验证了其有效性。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。