首站-论文投稿智能助手
典型文献
基于多重注意结构的图像密集描述生成方法研究
文献摘要:
图像密集描述旨在为复杂场景图像提供细节描述语句.现有研究方法虽已取得较好成绩,但仍存在以下两个问题:1)大多数方法仅将注意力聚焦在网络所提取的深层语义信息上,未能有效利用浅层视觉特征中的几何信息;2)现有方法致力于改进感兴趣区域间上下文信息的提取,但图像内物体空间位置信息尚不能较好体现.为解决上述问题,提出一种基于多重注意结构的图像密集描述生成方法——MAS-ED(Multiple attention structure-encoder decoder).MAS-ED通过多尺度特征环路融合(Multi-scale feature loop fusion,MFLF)机制将多种分辨率尺度的图像特征进行有效集成,并在解码端设计多分支空间分步注意力(Multi-branch spatial step attention,MSSA)模块,以捕捉图像内物体间的空间位置关系,从而使模型生成更为精确的密集描述文本.实验在Visual Genome数据集上对MAS-ED进行评估,结果表明MAS-ED能够显著提升密集描述的准确性,并可在文本中自适应加入几何信息和空间位置信息.基于长短期记忆网络(Long-short term memory,LSTM)解码网络框架,MAS-ED方法性能在主流评价指标上优于各基线方法.
文献关键词:
图像密集描述;多重注意结构;多尺度特征环路融合;多分支空间分步注意力
作者姓名:
刘青茹;李刚;赵创;顾广华;赵耀
作者机构:
燕山大学信息科学与工程学院 秦皇岛066004;河北省信息传输与信号处理重点实验室 秦皇岛066004;北京交通大学信息科学研究所 北京100044
文献出处:
引用格式:
[1]刘青茹;李刚;赵创;顾广华;赵耀-.基于多重注意结构的图像密集描述生成方法研究)[J].自动化学报,2022(10):2537-2548
A类:
多重注意结构,图像密集描述,密集描述生成,多尺度特征环路融合,MFLF,多分支空间分步注意力
B类:
生成方法,复杂场景,场景图像,描述语,语句,深层语义信息,视觉特征,几何信息,感兴趣区域,区域间,上下文信息,空间位置信息,MAS,ED,Multiple,attention,structure,encoder,decoder,scale,feature,loop,fusion,图像特征,有效集,解码,branch,spatial,step,MSSA,位置关系,模型生成,Visual,Genome,长短期记忆网络,Long,short,term,memory,网络框架
AB值:
0.273543
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。