典型文献
融合ELMo词嵌入的多模态Transformer的图像描述算法
文献摘要:
图像描述任务旨在针对一张给出的图像产生其对应描述.针对现有算法中语义信息理解不够全面的问题,提出了一个针对图像描述领域的多模态Transformer模型.该模型在注意模块中同时捕捉模态内和模态间的相互作用;更进一步使用ELMo获得包含上下文信息的文本特征,使模型获得更加丰富的语义描述输入.该模型可以对复杂的多模态信息进行更好地理解与推断并且生成更为准确的自然语言描述.该模型在Microsoft COCO数据集上进行了广泛的实验,实验结果表明,相比于使用bottom-up注意力机制以及LSTM进行图像描述的基线模型具有较大的效果提升,模型在BLEU-1、BLEU-2、BLEU-3、BLEU-4、ROUGE-L、CIDEr-D上分别有0.7、0.4、0.9、1.3、0.6、4.9个百分点的提高.
文献关键词:
Transformer;图像描述;ELMo;注意力机制
中图分类号:
作者姓名:
杨文瑞;沈韬;朱艳;曾凯;刘英莉
作者机构:
昆明理工大学 信息工程与自动化学院,昆明 650500;昆明理工大学 云南省计算机重点实验室,昆明 650500
文献出处:
引用格式:
[1]杨文瑞;沈韬;朱艳;曾凯;刘英莉-.融合ELMo词嵌入的多模态Transformer的图像描述算法)[J].计算机工程与应用,2022(21):223-231
A类:
B类:
ELMo,词嵌入,Transformer,图像描述,语义信息,注意模块,更进一步,上下文信息,文本特征,语义描述,多模态信息,自然语言,Microsoft,COCO,bottom,up,注意力机制,基线模型,效果提升,BLEU,ROUGE,CIDEr,百分点
AB值:
0.396041
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。