首站-论文投稿智能助手
典型文献
基于语义关系图的跨模态张量融合网络的图像文本检索
文献摘要:
跨模态图像文本检索的难点是如何有效地学习图像和文本间的语义相关性.现有的大多数方法都是学习图像区域特征和文本特征的全局语义相关性或模态间对象间的局部语义相关性,而忽略了模态内对象之间的关系和模态间对象关系的关联.针对上述问题,提出了一种基于语义关系图的跨模态张量融合网络(CMTFN-SRG)的图像文本检索方法.首先,采用图卷积网络(GCN)学习图像区域间的关系并使用双向门控循环单元(Bi-GRU)构建文本单词间的关系;然后,将所学习到的图像区域和文本单词间的语义关系图通过张量融合网络进行匹配以学习两种不同模态数据间的细粒度语义关联;同时,采用门控循环单元(GRU)学习图像的全局特征,并将图像和文本的全局特征进行匹配以捕获模态间的全局语义相关性.将所提方法在Flickr30K和MS-COCO两个基准数据集上与多模态交叉注意力(MMCA)方法进行了对比分析.实验结果表明,所提方法在Flickr30K测试集、MS-COCO1K测试集以及MS-COCO5K测试集上文本检索图像任务的Recall@1分别提升了2.6%、9.0%和4.1%,召回率均值(mR)分别提升了0.4、1.3和0.1个百分点,可见该方法能有效提升图像文本检索的精度.
文献关键词:
跨模态检索;张量融合网络;图卷积网络;语义相关性;语义关系图
作者姓名:
刘长红;曾胜;张斌;陈勇
作者机构:
江西师范大学计算机信息工程学院,南昌 330022;南昌工程学院工商管理学院,南昌 330029
文献出处:
引用格式:
[1]刘长红;曾胜;张斌;陈勇-.基于语义关系图的跨模态张量融合网络的图像文本检索)[J].计算机应用,2022(10):3018-3024
A类:
张量融合网络,CMTFN,COCO1K,COCO5K
B类:
语义关系图,文本检索,地学,语义相关性,区域特征,文本特征,全局语义,对象关系,SRG,检索方法,图卷积网络,GCN,区域间,双向门控循环单元,Bi,GRU,建文,单词,所学,细粒度语义,语义关联,全局特征,Flickr30K,基准数据集,交叉注意力,MMCA,测试集,Recall,召回率,mR,百分点,跨模态检索
AB值:
0.249865
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。