首站-论文投稿智能助手
典型文献
融入视觉常识和注意力的图像描述
文献摘要:
图像描述任务是使计算机自动生成给定图像的自然语言描述文本,它涉及计算机视觉与 自然语言处理两个领域,可应用于检索系统、盲人导航和医学报告生成等领域.针对现有的图像描述模型对视觉语义关系挖掘不充分,及多层注意力机制建模特征存在注意偏差的问题,提出一种融入视觉常识和注意力的图像描述模型.在编解码器结构框架下,编码部分引入了视觉常识来指导局部特征产生常识语义关系,采用Faster R-CNN和VC R-CNN提取图像的局部特征和视觉常识特征;并对多层注意力挖掘的高层语义施加AoA(Attention on Attention)机制,以增强特征并获得更好的相关性,从而减少注意偏差误导解码端序列生成.解码部分采用注意力机制对特征加权选择相关信息,使用LSTM和门控线性单元生成输出单词序列.在MS COCO数据集上进行测试,实验结果表明,所提出的模型在BLEU、METEOR、ROUGE-L、CIDEr和SPICE多种评价指标上有一定程度的提升,表明了该模型能够更加准确且丰富地表达图像语义内容.
文献关键词:
图像描述;注意力机制;视觉常识;注意偏差
作者姓名:
杨有;方小龙;邓毅;吴春燕;姚露
作者机构:
重庆国家应用数学中心,重庆401331;重庆师范大学计算机与信息科学学院,重庆401331
引用格式:
[1]杨有;方小龙;邓毅;吴春燕;姚露-.融入视觉常识和注意力的图像描述)[J].微电子学与计算机,2022(06):51-59
A类:
视觉常识,盲人导航
B类:
自动生成,计算机视觉,自然语言处理,检索系统,报告生成,图像描述模型,对视,语义关系,关系挖掘,多层注意力,注意力机制,模特,注意偏差,在编,编解码器,结构框架,局部特征,Faster,VC,AoA,Attention,差误,误导,序列生成,特征加权,门控线性单元,单词,词序,COCO,BLEU,METEOR,ROUGE,CIDEr,SPICE,语义内容
AB值:
0.356897
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。