典型文献
基于多模态融合的视觉问答传输注意网络
文献摘要:
针对传统视觉问答任务无法完全捕捉多模态特征之间复杂相关性的缺点,文中提出了基于多模态融合的视觉问答传输注意网络.在特征提取部分,分别利用GloVe词嵌入+LSTM提取问题特征,并使用ResNet-152网络提取图像特征.通过3层传输注意网络进行多模态融合来学习全局多模态嵌入信息,进而使用该嵌入重新校准输入特征.文中设计了一个多模态传输注意学习架构,通过对传输网络进行重叠计算,使组合特征聚焦在图像和问题的细粒度部分,提高了预测答案的准确率.在VQA v1.0数据集上的实验结果表明,该模型的总体准确率达到了69.92%,显著优于其他5种主流视觉问答模型的准确率,证明了该模型的有效性和鲁棒性.
文献关键词:
视觉问答;多模态特征;组合特征;多模态嵌入;注意力;传输网络;细粒度;多模态融合
中图分类号:
作者姓名:
王茂;彭亚雄;陆安江
作者机构:
贵州大学 大数据与信息工程学院,贵州 贵阳550025
文献出处:
引用格式:
[1]王茂;彭亚雄;陆安江-.基于多模态融合的视觉问答传输注意网络)[J].电子科技,2022(12):72-77
A类:
+LSTM,多模态嵌入
B类:
多模态融合,视觉问答,输注,注意网络,多模态特征,GloVe,词嵌入,ResNet,图像特征,输入特征,中设计,一个多,学习架构,传输网络,组合特征,细粒度,VQA,v1
AB值:
0.227434
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。