尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 人类学习本质上是多模态的,因为联合利用多种感官有助于更好地理解和分析新信息。理所当然地,视觉语言模态学习从人类最为关键的视觉和语言两种模态融合学习过程的有效性中汲取灵感,在具有挑战性的任务中表现出了让人眼前一亮的能力,诸如跨模态检... 展开 人类学习本质上是多模态的,因为联合利用多种感官有助于更好地理解和分析新信息。理所当然地,视觉语言模态学习从人类最为关键的视觉和语言两种模态融合学习过程的有效性中汲取灵感,在具有挑战性的任务中表现出了让人眼前一亮的能力,诸如跨模态检索、图像描述生成、文本引导图像生成以及视觉问答等各种实际应用。 经典的视觉语言模型结构都有文本嵌入(Textual Embed , TE)、视觉嵌入(Visual Embed,VE)、模态融合(Modality Interaction,MI)三大部分。大量的研究集中在 TE、VE、MI 的关系上,主要是对单模态表征能力和双模态交互能力的取舍。论文主要关注TE的性能优化,认定当前的TE方式不够细腻,存在诸多语义提取不够的问题,具体表现为语义歧义、长距离语义消失、情感语义薄弱等三大关键科学问题,为此针对上述问题展开探究。论文的研究动机是:提出主宾依存方向用以排歧,提出主谓依存距离用于抓准核心语义,提出谓语依存强度用以放大增强情感词的embedding生成效果,最终实现了对图文模态的精确推理和精确对齐,提供快速、准确的图文跨模态检索的功能。其具体贡献如下: 第一,针对BERT双向注意力无法确定谓语的真实动作方向而导致的歧义问题,提出基于主宾依存方向指导的视觉语言融合模型。首先,在对语言模态句法分析的基础上构建句法依存有向无环图,提出主宾依存方向这一核心定义,具体采用依存图中的依存弧来表示谓语动作方向,使得无歧语义注入到embedding中,从而最终达到排歧的目的。实验结果表明,图文跨模态检索任务的召回率,与业界SOTA方法COTS相比,R@10提高了2.25%,经消融实验测定,提升的精度与主宾依存方向有紧密关系。 第二,针对在长难文本中全局注意力难以捕捉基于词间距离的主谓关系而导致的语义消失问题,提出基于主谓依存距离指导的视觉语言融合模型。通过对语言模态分析句法依存关系,从而构建句法层次树,提出主谓依存距离这一核心定义,具体采用句法层次树中的边数来表示。与词间距离相比较而言,依存距离更为科学且合理,能准确把握长句子中的核心主谓语义。实验结果表明,在保证检索召回率不变的情况下,节省了大约25%的检索时间,在处理长难文本时,效果尤为明显。 第三,针对BERT仅仅学习上下文缺乏对词性重点标注而导致的情感语义理解能力薄弱问题,提出基于谓语依存强度指导的视觉语言融合模型。提出谓语依存强度这一核心定义,通过词性+词义+依存关系等多方面综合计算依存强度。具体做法是重点标注词性用以辅助放大模型对关键情感语义的权重,生成的embedding中饱含情感词前后重要的情感修饰语义。实验结果表明,对比其它视觉语言融合模型,模型整体的召回率更高,对含有情感倾向的文本检索结果更为精确。同时,不同的依存关系和词性具有不同的依存强度,其中,冠词修饰关系和限定词的依存强度最小。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。