典型文献
基于注意力特征融合的视觉问答模型
文献摘要:
随着深度学习的兴起和不断发展,视觉问答领域的研究取得了显著进展,当前较多视觉问答模型通过引入注意力机制和相关迭代操作来提取图像区域与高频疑问词对的相关性,但在获取图像与问题的空间语义关联方面的有效性较低,从而影响答案的准确性.为此,提出一种基于MobileNetV3网络及注意力特征融合的视觉问答模型,首先,为优化图像特征提取模块,引入MobileNetV3网络,并加入空间金字塔池化结构,在减少网络模型计算复杂度的同时保证模型准确率.此外,对输出分类器进行改进,将其中的特征融合方式使用基于注意力特征融合方式连接,提升问答的准确率.最后在公开数据集VQA 2.0上进行对比实验,结果表明文章所提模型与当前主流模型相比更具优越性.
文献关键词:
视觉问答;注意力机制;MobileNetV3网络;特征融合
中图分类号:
作者姓名:
李宽;张荣芬;刘宇红;鲁鑫鑫
作者机构:
贵州大学大数据与信息工程学院,贵州贵阳550025
文献出处:
引用格式:
[1]李宽;张荣芬;刘宇红;鲁鑫鑫-.基于注意力特征融合的视觉问答模型)[J].微电子学与计算机,2022(04):83-90
A类:
B类:
注意力特征融合,视觉问答,注意力机制,疑问词,语义关联,关联方,MobileNetV3,图像特征提取,取模,空间金字塔池化,计算复杂度,模型准确率,分类器,融合方式,公开数据集,VQA,明文,流模型
AB值:
0.293531
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。