典型文献
基于粒度感知和语义聚合的图像-文本检索网络
文献摘要:
图像-文本检索是视觉-语言领域中的基本任务,其目的在于挖掘不同模态样本之间的关系,即通过一种模态样本来检索具有近似语义的另一种模态样本.然而,现有方法大多高度依赖于将图像特定区域和句中单词进行相似语义关联,低估了视觉多粒度信息的重要性,导致了错误匹配以及语义模糊嵌入等问题.通常,图片包含了目标级、动作级、关系级以及场景级的粗、细粒度信息,而这些信息无显式多粒度标签,难以与模糊的文本表达直接一一对应.为了解决此问题,提出了一个粒度感知和语义聚合(Granularity-Aware and Semantic Aggregation,GASA)网络,用于获得多粒度视觉特征并缩小文本和视觉之间的语义鸿沟.具体来说,粒度感知的特征选择模块挖掘视觉多粒度信息,并在自适应门控融合机制和金字塔空洞卷积结构的引导下进行了多尺度融合.语义聚合模块在一个共享空间中对来自视觉和文本的多粒度信息进行聚类,以获得局部表征.模型在两个基准数据集上进行了实验,在MSCOCO 1k上R@1优于最先进的技术2%以上,在Flickr30K上R@Sum优于之前最先进的技术4.1%.
文献关键词:
图文匹配;跨模态检索;特征提取;语义聚类;多粒度信息提取
中图分类号:
作者姓名:
缪岚芯;雷雨;曾鹏鹏;李晓瑜;宋井宽
作者机构:
电子科技大学计算机科学与工程学院(网络空间安全学院) 成都 611731;电子科技大学信息与软件工程学院 成都 610054
文献出处:
引用格式:
[1]缪岚芯;雷雨;曾鹏鹏;李晓瑜;宋井宽-.基于粒度感知和语义聚合的图像-文本检索网络)[J].计算机科学,2022(11):134-140
A类:
门控融合机制,多粒度信息提取
B类:
文本检索,索网,语言领域,基本任务,索具,特定区域,单词,语义关联,低估,误匹配,细粒度信息,显式,本表,一一对应,Granularity,Aware,Semantic,Aggregation,GASA,视觉特征,小文,语义鸿沟,具体来说,特征选择,自适应门控,金字塔,空洞卷积,多尺度融合,共享空间,自视,基准数据集,MSCOCO,1k,最先,Flickr30K,Sum,图文匹配,跨模态检索,语义聚类
AB值:
0.412954
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。