典型文献
从视频到语言:视频标题生成与描述研究综述
文献摘要:
视频标题生成与描述是使用自然语言对视频进行总结与重新表达.由于视频与语言之间存在异构特性,其数据处理过程较为复杂.本文主要对基于"编码-解码"架构的模型做了详细阐述,以视频特征编码与使用方式为依据,将其分为基于视觉特征均值/最大值的方法、基于视频序列记忆建模的方法、基于三维卷积特征的方法及混合方法,并对各类模型进行了归纳与总结.最后,对当前存在的问题及可能趋势进行了总结与展望,指出需要生成融合情感、逻辑等信息的结构化语段,并在模型优化、数据集构建、评价指标等方面进行更为深入的研究.
文献关键词:
视频描述;卷积神经网络;循环神经网络;语段生成;情感表达;逻辑语义
中图分类号:
作者姓名:
汤鹏杰;王瀚漓
作者机构:
井冈山大学电子与信息工程学院 吉安343009;同济大学计算机科学与技术系 上海201804;嵌入式系统与服务计算教育部重点实验室(同济大学) 上海200092;同济大学上海智能科学与技术研究院 上海200092
文献出处:
引用格式:
[1]汤鹏杰;王瀚漓-.从视频到语言:视频标题生成与描述研究综述)[J].自动化学报,2022(02):375-397
A类:
语段生成
B类:
标题,自然语言,对视,解码,特征编码,使用方式,视觉特征,视频序列,列记,三维卷积,卷积特征,混合方法,总结与展望,模型优化,数据集构建,视频描述,循环神经网络,情感表达,逻辑语义
AB值:
0.454487
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。