典型文献
基于多模态融合与多层注意力的视频内容文本表述研究
文献摘要:
针对现有视频内容文本表述模型存在生成的文本表述单一、准确率不高等问题,提出一种融合帧级图像及音频信息的视频内容文本表述模型.基于自注意力机制设计单模态嵌入层网络结构,并将其嵌入单模态特征中学习单模态特征参数.采用联合表示、协作表示两种方法对单模态嵌入层输出的高维特征向量进行双模态特征融合,使模型能关注视频中不同目标间的交互关系,从而生成更加丰富、准确的视频文本表述.使用大规模数据集对模型进行预训练,并提取视频帧、视频所携带的音频等表征信息,将其送入编解码器实现视频内容的文本表述.在MSR-VTT和LSMDC数据集上的实验结果表明,所提模型的BLEU4、METEOR、ROUGEL和CIDEr指标分别为0.386、0.250、0.609和0.463,相较于MSR-VTT挑战赛中IIT DeIhi发布的模型,分别提升了0.082、0.037、0.115和0.257,能有效提升视频内容文本表述的准确率.
文献关键词:
视频内容文本描述;多模态融合;联合表示;协作表示;自注意力机制
中图分类号:
作者姓名:
赵宏;郭岚;陈志文;郑厚泽
作者机构:
兰州理工大学 计算机与通信学院,兰州 730050
文献出处:
引用格式:
[1]赵宏;郭岚;陈志文;郑厚泽-.基于多模态融合与多层注意力的视频内容文本表述研究)[J].计算机工程,2022(10):45-54
A类:
LSMDC,ROUGEL,DeIhi,视频内容文本描述
B类:
多模态融合,多层注意力,本表,音频信息,自注意力机制,机制设计,单模,嵌入层,模态特征,学习单,联合表示,协作表示,高维特征向量,双模态,特征融合,注视,交互关系,大规模数据集,预训练,视频帧,送入,入编,编解码器,MSR,VTT,BLEU4,METEOR,CIDEr,挑战赛,IIT
AB值:
0.319199
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。