典型文献
基于空时变换网络的视频摘要生成
文献摘要:
视频摘要生成是计算机视觉领域必不可少的关键任务,这一任务的目标是通过选择视频内容中信息最丰富的部分来生成一段简洁又完整的视频摘要,从而对视频内容进行总结.所生成的视频摘要通常为一组有代表性的视频帧(如视频关键帧)或按时间顺序将关键视频片段缝合所形成的一个较短的视频.虽然视频摘要生成方法的研究已经取得了相当大的进展,但现有的方法存在缺乏时序信息和特征表示不完备的问题,很容易影响视频摘要的正确性和完整性.为了解决视频摘要生成问题,提出一种空时变换网络模型,该模型包括3大模块,分别为:嵌入层、特征变换与融合层、输出层.其中,嵌入层可同时嵌入空间特征和时序特征,特征变换与融合层可实现多模态特征的变换和融合,最后输出层通过分段预测和关键镜头选择完成视频摘要的生成.通过空间特征和时序特征的分别嵌入,以弥补现有模型对时序信息表示的不足;通过多模态特征的变换和融合,以解决特征表示不完备的问题.在两个基准数据集上做了充分的实验和分析,验证了所提模型的有效性.
文献关键词:
视频摘要生成;空时变换网络;ViLBERT;特征融合;多模态
中图分类号:
作者姓名:
李群;肖甫;张子屹;张锋;李延超
作者机构:
南京邮电大学计算机学院、软件学院、网络空间安全学院,江苏南京210023
文献出处:
引用格式:
[1]李群;肖甫;张子屹;张锋;李延超-.基于空时变换网络的视频摘要生成)[J].软件学报,2022(09):3195-3209
A类:
空时变换网络,ViLBERT
B类:
视频摘要生成,计算机视觉,关键任务,一任,视频内容,中信,分来,来生,对视,所生,视频帧,视频关键帧,按时,缝合,生成方法,时序信息,特征表示,成问题,嵌入层,特征变换,出层,空间特征,时序特征,多模态特征,分段预测,镜头,现有模型,基准数据集,特征融合
AB值:
0.228072
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。