尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 手势作为人类日常交流过程中最主要的信息传递方式之一,可以在人们语言不通、距离较远或不便语言交流的场景下向对方传递信息。随着计算机视觉与人机交互领域的发展,手势识别成为了一个重要的研究方向。手势识别在智能驾驶,智能家居,机器人,VR和... 展开 手势作为人类日常交流过程中最主要的信息传递方式之一,可以在人们语言不通、距离较远或不便语言交流的场景下向对方传递信息。随着计算机视觉与人机交互领域的发展,手势识别成为了一个重要的研究方向。手势识别在智能驾驶,智能家居,机器人,VR和AR等领域都有着十分重要的应用,用户可以通过手势给予系统指令,系统通过摄像头等图像采集装置获取手势信息进行分析并做出相应反馈。本文基于深度学习理论展开对计算机视觉算法的研究并探索改进策略,最后应用于手势识别。 本文以Mask R-CNN实例分割模型作为基线模型进行研究并基于主干网络,掩码分支,模型轻量化三个方面对模型进行了优化,提出了Light Head MS R-CNN实例分割模型,主要创新点如下: 1.首先改进了Mask R-CNN的主干网络,使用专用于检测任务的DetNet代替了为分类任务设计的ResNet,DetNet的第5,6两个阶段的输出均下采样到原图的16倍,并在残差结构中引入空洞卷积来增大感受野,使得各阶段输出特征图足够大,深层特征图保留了一定的位置信息并且小物体在深层特征图上的映射不会消失;针对FPN特征融合不会增加深层特征图位置信息导致模型对较大物体定位不准确的问题,在FPN结构的基础上添加了一条自底向上的路径增强分支使得输出的多尺度特征图同时包含较准确的语义和空间位置信息。结合上述思想提出了DetNet59-FPN-PA的主干网络结构,加强了模型对小目标和大目标的识别效果。 2.其次结合全连接层识别全局模式的特性,在原有全卷积掩码分支的基础上增加一条全连接分支,融合两者输出进行更准确的掩码预测;在模型的Head部分加入了MaskIoU Head用于回归预测掩码与真实掩码的交并比,使模型能够学习掩码质量,最后模型对预测结果的打分同时考虑了分类置信度和掩码质量,mAP得到进一步提高。 3.针对改进后模型的Head结构过于复杂导致检测速度较慢的问题,本文引入轻量化位置敏感得分图加强了模型中全卷积子网络的平移同变性并且使用PSRoI Align的方法将池化后的RoI通道数降低至8和2,使得Head结构可以做到轻量化,加快了模型的检测速度。 此外,本文基于自制手势识别数据集对提出的改进策略进行了综合的消融实验,证明了改进策略的可行性并选取适合手势识别任务的最佳模型结构配置。最后将改进后的模型基于手势数据集进行训练,实验表明,经本文改进的模型在手势识别测试集上的mAP达到95.8%,速度和精度较主流二阶段检测模型均得到了提升。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。