基于空时变换网络的视频摘要生成|李群;肖甫;张子屹;张锋;李延超 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

基于空时变换网络的视频摘要生成

文献摘要：

视频摘要生成是计算机视觉领域必不可少的关键任务,这一任务的目标是通过选择视频内容中信息最丰富的部分来生成一段简洁又完整的视频摘要,从而对视频内容进行总结.所生成的视频摘要通常为一组有代表性的视频帧(如视频关键帧)或按时间顺序将关键视频片段缝合所形成的一个较短的视频.虽然视频摘要生成方法的研究已经取得了相当大的进展,但现有的方法存在缺乏时序信息和特征表示不完备的问题,很容易影响视频摘要的正确性和完整性.为了解决视频摘要生成问题,提出一种空时变换网络模型,该模型包括3大模块,分别为:嵌入层、特征变换与融合层、输出层.其中,嵌入层可同时嵌入空间特征和时序特征,特征变换与融合层可实现多模态特征的变换和融合,最后输出层通过分段预测和关键镜头选择完成视频摘要的生成.通过空间特征和时序特征的分别嵌入,以弥补现有模型对时序信息表示的不足;通过多模态特征的变换和融合,以解决特征表示不完备的问题.在两个基准数据集上做了充分的实验和分析,验证了所提模型的有效性.

文献关键词：

视频摘要生成;空时变换网络;ViLBERT;特征融合;多模态

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391）

[2] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391） / 模式识别与装置（TP391.4）

[3] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18） / 人工神经网络与计算（TP183）

作者姓名：

李群;肖甫;张子屹;张锋;李延超

作者机构：

南京邮电大学计算机学院、软件学院、网络空间安全学院,江苏南京210023

文献出处：

引用格式：

[1]李群;肖甫;张子屹;张锋;李延超-.基于空时变换网络的视频摘要生成)[J].软件学报,2022(09):3195-3209

A类：

空时变换网络,ViLBERT

B类：

视频摘要生成,计算机视觉,关键任务,一任,视频内容,中信,分来,来生,对视,所生,视频帧,视频关键帧,按时,缝合,生成方法,时序信息,特征表示,成问题,嵌入层,特征变换,出层,空间特征,时序特征,多模态特征,分段预测,镜头,现有模型,基准数据集,特征融合

AB值：

0.228072

相似文献

基于多模态特征融合嵌入的相似广告检索方法

冯奕;周晓松;李传艺;王挺;葛季栋;胡雨成;张小鹏;骆斌-南京大学计算机软件新技术国家重点实验室南京 210046;南京大学软件学院南京 210093;深圳市腾讯计算机系统有限公司广东深圳 518000

结合在线归纳和直推推理的快速视频目标分割方法

徐凯;李国荣;洪德祥;张维刚;齐元凯;黄庆明-中国科学院大学计算机科学与技术学院北京 100190;哈尔滨工业大学(威海)计算机科学与技术学院山东威海 264209

基于语句融合和自监督训练的文本摘要生成模型

邹傲;郝文宁;靳大尉;陈刚-陆军工程大学指挥控制工程学院南京210007

空间约束下自相互注意力的RGB-D显著目标检测

袁晓;肖云;江波;汤进-安徽大学计算机科学与技术学院多模态认知计算安徽省重点实验室合肥230601;安徽大学人工智能学院合肥230601;合肥综合性国家科学中心人工智能研究院合肥230088

基于Vision Transformer的中文唇语识别

薛峰;洪自坤;李书杰;李雨;谢胤岑-合肥工业大学软件学院合肥230601;合肥工业大学计算机与信息学院合肥230601

面向多模态情感分析的双模态交互注意力

包广斌;李港乐;王国雄-兰州理工大学计算机与通信学院,兰州 730050

基于多模态特征融合的Fast-Flux恶意域名检测方法

郎波;谢冲;陈少杰;刘宏宇-北京航空航天大学软件开发环境国家重点实验室,北京 100191

基于DeepFM和卷积神经网络的集成式多模态谣言检测方法

陈志毅;隋杰-中国科学院大学工程科学学院北京 100049

基于对偶变分多模态注意力网络的不完备社会事件分类方法

周旭;钱胜胜;李章明;方全;徐常胜-郑州大学河南先进技术研究院郑州450000;中国科学院自动化研究所模式识别国家重点实验室北京100190

使用词对齐半监督对抗学习的汉越跨语言摘要生成方法

王剑;张莹;余正涛;黄于欣-昆明理工大学信息工程与自动化学院,昆明650500;昆明理工大学云南省人工智能重点实验室,昆明650500

BTDGCNN:面向三维点云拓扑结构的BallTree动态图卷积神经网络

张学典;方慧-上海理工大学光电信息与计算机工程学院,上海200093

基于多模态融合与多层注意力的视频内容文本表述研究

赵宏;郭岚;陈志文;郑厚泽-兰州理工大学计算机与通信学院,兰州 730050

基于动态时序移位的视频特征学习方法

谈伟峰;程春玲;毛毅-南京邮电大学计算机学院、软件学院、网络空间安全学院,江苏南京 210023

开源软件缺陷报告自动摘要研究综述

刘翠兰;张嘉元;曹旭栋;伍高飞;朱笑岩;任家东;冯涛-西安电子科技大学广州研究院广州中国 510555;国家计算机网络入侵防范中心(中国科学院大学) 北京中国 101408;兰州理工大学计算机与通信学院兰州中国 730050;中国科学院大学计算机科学与技术学院北京中国 101408;桂林电子科技大学广西密码学与信息安全重点实验室桂林中国 541004;西安电子科技大学通信工程学院西安中国 710071;燕山大学信息科学与技术学院秦皇岛中国 066004

多模态特征融合的视频记忆度预测

常诗颖;胡燕-武汉理工大学计算机科学与技术学院,武汉 430070

MTD增强的网络欺骗防御系统

高春刚;王永杰;熊鑫立-国防科技大学电子对抗学院,合肥 230037;安徽省网络安全态势感知与评估重点实验室,合肥 230037

基于ALBERT-UniLM模型的文本自动摘要技术研究

孙宝山;谭浩-天津工业大学计算机科学与技术学院,天津 300387;天津市自主智能技术与系统重点实验室,天津 300387

多负例对比机制下的跨模态表示学习

丁凯旋;陈雁翔;赵鹏铖;朱玉鹏;盛振涛-合肥工业大学计算机与信息学院,合肥 230601

主题感知的长文本自动摘要算法

杨涛;解庆;刘永坚;刘平峰-武汉理工大学计算机科学与技术学院,武汉 430070;武汉理工大学经济学院,武汉 430070

结合注意力机制的CNN-LSTM的视频中双相抑郁症检测方法

穆家宝-中国科学技术大学大数据学院,安徽合肥230026

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。