典型文献
基于空间和多层级联合编码的图像描述算法
文献摘要:
图像描述是图像理解领域的热点研究课题之一,它是结合计算机视觉和自然语言处理的跨媒体数据分析任务,通过理解图像内容并生成语义和语法都正确的句子来描述图像.现有的图像描述方法多采用编码器-解码器模型,该类方法在提取图像中的视觉对象特征时大多忽略了视觉对象之间的相对位置关系,但它对于正确描述图像的内容是非常重要的.基于此,提出了基于Transformer的空间和多层级联合编码的图像描述方法.为了更好地利用图像中所包含的对象的位置信息,提出了视觉对象的空间编码机制,将各个视觉对象独立的空间关系转换为视觉对象间的相对空间关系,以此来帮助模型识别各个视觉对象间的相对位置关系.同时,在视觉对象的编码阶段,顶部的编码特征保留了更多的贴合图像语义信息,但丢失了图像部分视觉信息,考虑到这一点,文中提出了多层级联合编码机制,通过整合各个浅层的编码层所包含的图像特征信息来完善顶部编码层所蕴含的语义的信息,从而获取到更丰富的贴合图像的语义信息的编码特征.文中在M SCOCO数据集上使用多种评估指标(BLEU,METEOR,ROUGE-L和CIDEr等)对提出的图像描述方法进行评估,并通过消融实验证明了提出的基于空间的编码机制以及多层级联合编码机制能够辅助产生更为准确有效的图像描述语句.对比实验结果表明,所提方法能够产生准确、有效的图像描述并优于大多数最新的算法.
文献关键词:
图像描述;Transformer;空间编码机制;多层级联合编码机制;注意力机制
中图分类号:
作者姓名:
方仲俊;张静;李冬冬
作者机构:
华东理工大学信息科学与工程学院 上海200237;苏州大学江苏省计算机信息处理技术重点实验室 江苏苏州215031
文献出处:
引用格式:
[1]方仲俊;张静;李冬冬-.基于空间和多层级联合编码的图像描述算法)[J].计算机科学,2022(10):151-158
A类:
空间编码机制,多层级联合编码机制,SCOCO
B类:
图像描述,图像理解,热点研究,研究课题,计算机视觉,自然语言处理,跨媒体,媒体数据,成语,语法,句子,编码器,解码器,相对位置,位置关系,Transformer,位置信息,空间关系,模型识别,编码特征,贴合,图像语义信息,视觉信息,编码层,图像特征,特征信息,取到,BLEU,METEOR,ROUGE,CIDEr,消融实验,助产,确有,描述语,语句,注意力机制
AB值:
0.30156
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。