基于视觉特征引导融合的视频描述方法|苗教伟;季怡;刘纯平 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

基于视觉特征引导融合的视频描述方法

文献摘要：

视频描述生成因其广泛的潜在应用场景而成为近年来的研究热点之一.针对模型解码过程中视觉特征和文本特征交互不足而导致描述中出现识别错误的情况,提出基于编解码框架下的视觉与文本特征交互增强的多特征融合视频描述方法.在解码过程中,该方法使用视觉特征辅助引导描述生成,不仅为每一步的生成过程提供了文本信息,同时还提供了视觉参考信息,引导其生成更准确的词,大幅度提升了模型产生的描述质量;同时,结合循环dropout缓解解码器存在的过拟合情况,进一步提升了评价分数.在该领域广泛使用的MSVD和MSRVTT数据集上的消融和对比实验结果证明,提出的方法的可以有效生成视频描述,综合指标分别增长了17.2和2.1个百分点.

文献关键词：

编解码框架;视频描述;特征融合;dropout;特征交互

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391） / 模式识别与装置（TP391.4）

[2] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391）

[3] 文化、科学、教育、体育（G） / 信息与知识传播（G2） / 信息与传播理论（G20） / 传播理论（G206）

作者姓名：

苗教伟;季怡;刘纯平

作者机构：

苏州大学计算机科学与技术学院,江苏苏州 215006

文献出处：

计算机工程与应用

引用格式：

[1]苗教伟;季怡;刘纯平-.基于视觉特征引导融合的视频描述方法)[J].计算机工程与应用,2022(20):124-131

A类：

MSRVTT

B类：

视觉特征,特征引导,视频描述,潜在应用,中视,文本特征,特征交互,互不,编解码框架,多特征融合,特征辅助,生成过程,文本信息,考信,dropout,解解,解码器,过拟合,MSVD,融和,有效生成,综合指标,百分点

AB值：

0.370303

相似文献

结合Transformer与对称型编解码器的噪声虹膜图像分割方法

顾正杰;王财勇;田启川;张琪-北京建筑大学电气与信息工程学院北京 100044;北京建筑大学建筑大数据智能处理方法研究北京市重点实验室北京 100044;中国人民公安大学信息网络安全学院北京 100038

多尺度融合残差编解码器的低照度图像增强方法

潘晓英;魏苗;王昊;贾丰竹-西安邮电大学计算机学院西安 710121;西安邮电大学陕西省网络数据分析与智能处理重点实验室西安 710121;西北工业大学软件学院西安 710072

时序对齐视觉特征映射的音效生成方法

谢志峰;孙络祎;孙郁洲;余椿鹏;马利庄-上海大学影视工程系上海 200072;上海大学上海电影特效工程技术研究中心上海 200072;上海交通大学计算机科学与工程系上海 200240

基于多重注意结构的图像密集描述生成方法研究

刘青茹;李刚;赵创;顾广华;赵耀-燕山大学信息科学与工程学院秦皇岛066004;河北省信息传输与信号处理重点实验室秦皇岛066004;北京交通大学信息科学研究所北京100044

从视频到语言:视频标题生成与描述研究综述

汤鹏杰;王瀚漓-井冈山大学电子与信息工程学院吉安343009;同济大学计算机科学与技术系上海201804;嵌入式系统与服务计算教育部重点实验室(同济大学) 上海200092;同济大学上海智能科学与技术研究院上海200092

基于显著性特征提取的图像描述算法

王鑫;宋永红;张元林-西安交通大学软件学院西安710049;西安交通大学人工智能学院西安710049

基于Vision Transformer的中文唇语识别

薛峰;洪自坤;李书杰;李雨;谢胤岑-合肥工业大学软件学院合肥230601;合肥工业大学计算机与信息学院合肥230601

融合图注意力的多特征链接预测算法

张雁操;赵宇海;史岚-东北大学计算机科学与工程学院,沈阳 110169

基于矩阵分解双线性池化的多模态融合虚假新闻检测

王婕;刘芸;纪淑娟-山东科技大学山东省智慧矿山信息技术重点实验室,山东青岛266590

基于DeepFM和卷积神经网络的集成式多模态谣言检测方法

陈志毅;隋杰-中国科学院大学工程科学学院北京 100049

基于空间和多层级联合编码的图像描述算法

方仲俊;张静;李冬冬-华东理工大学信息科学与工程学院上海200237;苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215031

使用词对齐半监督对抗学习的汉越跨语言摘要生成方法

王剑;张莹;余正涛;黄于欣-昆明理工大学信息工程与自动化学院,昆明650500;昆明理工大学云南省人工智能重点实验室,昆明650500

融入视觉常识和注意力的图像描述

杨有;方小龙;邓毅;吴春燕;姚露-重庆国家应用数学中心,重庆401331;重庆师范大学计算机与信息科学学院,重庆401331

多关键帧特征交互的人脸篡改视频检测

祝恺蔓;徐文博;卢伟;赵险峰-中山大学计算机学院, 广州 510006;中国科学院信息工程研究所信息安全国家重点实验室, 北京 100195;中国科学院大学网络空间安全学院, 北京 100195

结合多层级解码器和动态融合机制的图像描述

姜文晖;占锟;程一波;夏雪;方玉明-江西财经大学信息管理学院,南昌 330032

面向非受控场景的人脸图像正面化重建

辛经纬;魏子凯;王楠楠;李洁;高新波-西安电子科技大学通信工程学院,西安 710071;西安电子科技大学电子工程学院,西安 710071;重庆邮电大学图像认知重庆市重点实验室,重庆 400065

基于多模态融合与多层注意力的视频内容文本表述研究

赵宏;郭岚;陈志文;郑厚泽-兰州理工大学计算机与通信学院,兰州 730050

基于编解码结构的多特征融合眼底图像分割

丁婉莹;陈伟;李昭慧-西安科技大学通信与信息工程学院,陕西西安 710000

视频中稳定的跨场景前景分割

魏宗琪;梁栋-南京航空航天大学计算机学院,江苏南京 211100

基于注意力机制和编码-解码架构的施工场景图像描述方法

农元君;王俊杰;陈红;孙文涵;耿慧;李书悦-中国海洋大学工程学院,山东青岛 266100

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。