典型文献
多时间维度信息融合的图像描述方法
文献摘要:
目前图像描述技术的主要架构是基于深度神经网络的Encoder-Decoder架构.大多数工作集中在图像的特征提取和注意力机制上,如hard注意力模型和top-down注意力模型等.这些方法仅使用上一时刻的信息预测当前时刻的输出,使得解码器的输入信息的时间维度单一,同时解码器的单个输出也影响着预测结果的准确性.本文提出横向和纵向的多时间维度信息融合的图像描述模型,其中模型的横向结构使用过去和现在时刻的语义信息丰富解码器的输入,模型的纵向结构同时生成现在和未来时刻的预测向量来丰富解码器的输出,模型两种独立结构的解码器都生成多个输出,然后分别对其进行加权融合作为模型两种结构的最终输出.在Flickr30k和MSCOCO两个数据集上的实验结果表明,模型的两种结构在多个评价指标上的得分超过了其他主流的模型,对图像的描述更准确.
文献关键词:
图像描述;解码器;多时间维度;注意力机制
中图分类号:
作者姓名:
李坤;周世斌;朱佳明;张国鹏
作者机构:
中国矿业大学 计算机科学与技术学院,江苏 徐州221116
文献出处:
引用格式:
[1]李坤;周世斌;朱佳明;张国鹏-.多时间维度信息融合的图像描述方法)[J].小型微型计算机系统,2022(01):103-110
A类:
多时间维度
B类:
信息融合,深度神经网络,Encoder,Decoder,工作集,注意力机制,hard,注意力模型,top,down,信息预测,解码器,图像描述模型,语义信息,纵向结构,来时,测向,加权融合,Flickr30k,MSCOCO
AB值:
0.31155
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。