典型文献
基于关系推理与门控机制的视觉问答方法
文献摘要:
针对现有的注意力机制存在缺乏对视觉对象间关系的理解能力及准确度较差的问题,在注意力机制的基础上增加关系推理模块与自适应门控机制.该方法利用注意力机制关注多个与问题相关的视觉区域,利用关系推理模块中的二元关系推理与多元关系推理加强视觉区域间的联系.将分别得到的视觉注意力特征与视觉关系特征输入到自适应门控中,动态控制2种特征对预测答案的贡献.在VQA1.0及VQA2.0数据集上的实验结果表明:该模型与DCN、MFB、MFH及MCB等先进模型相比,在总体精度上均有约2%的提升;利用基于关系推理与门控机制的模型能够更好地理解图像内容,有效地提升视觉问答的准确率.
文献关键词:
视觉问答(VQA);注意力机制;视觉区域;关系推理;自适应门控
中图分类号:
作者姓名:
王鑫;陈巧红;孙麒;贾宇波
作者机构:
浙江理工大学 信息学院, 浙江 杭州310018
文献出处:
引用格式:
[1]王鑫;陈巧红;孙麒;贾宇波-.基于关系推理与门控机制的视觉问答方法)[J].浙江大学学报(工学版),2022(01):36-46
A类:
VQA1,VQA2
B类:
关系推理,门控机制,视觉问答,注意力机制,对视,理解能力,自适应门控,法利,视觉区域,二元关系,多元关系,区域间,视觉注意力,视觉关系,关系特征,动态控制,DCN,MFB,MFH,MCB,总体精度
AB值:
0.314489
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。