典型文献
基于堆叠交叉注意力的图像文本跨模态匹配方法
文献摘要:
图像文本跨模态匹配是计算机视觉与自然语言处理交叉领域的一项重要任务,然而传统的图像文本跨模态匹配方法要么只考虑到全局图像与全局文本匹配,要么只考虑到局部图像与局部文本匹配,无法全面有效的考虑局部和全局信息,导致提取出来的特征信息不完善.或者只是简单的对全局图像与全局文本特征进行提取,局部细节信息无法凸显,导致全局特征无法充分表达其全局语义信息.针对该问题,本文提出一种基于堆叠交叉注意力的图像文本跨模态匹配方法.该方法在考虑局部图像与局部文本匹配的同时,将堆叠交叉注意力引进全局图像与全局文本匹配,通过注意力来进一步挖掘全局特征信息,让全局图像与全局文本特征得到优化,从而提升图像文本跨模态检索的效果.在Flickr30K和MS-COCO两个公共数据集上进行了实验验证,模型的总体性能R@sum(Recall@sum)较baseline (SCAN)分别提高了3.9%与3.7%.该模型与SCAN模型相比,R@sum表现较好.由此表明本文提出方法在图像文本跨模态检索任务上的有效性,并且与现有方法相比具有一定的优越性.
文献关键词:
跨模态匹配;局部细节信息;全局语义信息;堆叠交叉注意力;图像文本特征
中图分类号:
作者姓名:
王红斌;张志亮;李华锋
作者机构:
昆明理工大学信息工程与自动化学院,云南昆明650500;昆明理工大学云南省人工智能重点实验室,云南昆明650500
文献出处:
引用格式:
[1]王红斌;张志亮;李华锋-.基于堆叠交叉注意力的图像文本跨模态匹配方法)[J].信号处理,2022(02):285-299
A类:
堆叠交叉注意力,图像文本特征
B类:
跨模态匹配,匹配方法,计算机视觉,自然语言处理,交叉领域,要么,全局图,文本匹配,局部图,全局信息,特征信息,局部细节信息,全局特征,全局语义信息,征得,跨模态检索,Flickr30K,COCO,公共数据,总体性能,sum,Recall,baseline,SCAN
AB值:
0.200642
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。