典型文献
结合多层级解码器和动态融合机制的图像描述
文献摘要:
目的 注意力机制是图像描述模型的常用方法,特点是自动关注图像的不同区域以动态生成描述图像的文本序列,但普遍存在不聚焦问题,即生成描述单词时,有时关注物体不重要区域,有时关注物体上下文,有时忽略图像重要目标,导致描述文本不够准确.针对上述问题,提出一种结合多层级解码器和动态融合机制的图像描述模型,以提高图像描述的准确性.方法 对Transformer的结构进行扩展,整体模型由图像特征编码、多层级文本解码和自适应融合等3个模块构成.通过设计多层级文本解码结构,不断精化预测的文本信息,为注意力机制的聚焦提供可靠反馈,从而不断修正注意力机制以生成更加准确的图像描述.同时,设计文本融合模块,自适应地融合由粗到精的图像描述,使低层级解码器的输出直接参与文本预测,不仅可以缓解训练过程产生的梯度消失现象,同时保证输出的文本描述细节信息丰富且语法多样.结果 在MS COCO(Microsoft common objects in context)和Flickr30K两个数据集上使用不同评估方法对模型进行验证,并与具有代表性的12种方法进行对比实验.结果 表明,本文模型性能优于其他对比方法.其中,在MS COCO数据集中,相比于对比方法中性能最好的模型,BLEU-1(bilingual evaluation understudy)值提高了 0.5,CIDEr(consensus-based image description evaluation)指标提高了 1.0;在Flickr30K数据集中,相比于对比方法中性能最好的模型,BLEU-1值提高了 0.1,CIDEr指标提高了 0.6;同时,消融实验分别验证了级联结构和自适应模型的有效性.定性分析也表明本文方法能够生成更加准确的图像描述.结论 本文方法在多种数据集的多项评价指标上取得最优性能,能够有效提高文本序列生成的准确性,最终形成对图像内容的准确描述.
文献关键词:
图像描述;注意力机制;Transformer;多层级解码;动态融合;门机制
中图分类号:
作者姓名:
姜文晖;占锟;程一波;夏雪;方玉明
作者机构:
江西财经大学信息管理学院,南昌 330032
文献出处:
引用格式:
[1]姜文晖;占锟;程一波;夏雪;方玉明-.结合多层级解码器和动态融合机制的图像描述)[J].中国图象图形学报,2022(09):2775-2787
A类:
多层级解码,动态融合机制,bilingual
B类:
解码器,注意力机制,图像描述模型,常用方法,动态生成,聚焦问题,单词,不重,要区,上下文,略图,Transformer,整体模型,图像特征,特征编码,自适应融合,精化,文本信息,正注,低层,直接参与,训练过程,梯度消失,文本描述,细节信息,语法,COCO,Microsoft,common,objects,context,Flickr30K,模型性能,比方,BLEU,evaluation,understudy,CIDEr,consensus,image,description,消融实验,级联结构,适应模型,最优性能,序列生成,门机制
AB值:
0.336481
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。