典型文献
基于自然语言的视频片段定位综述
文献摘要:
自然语言视频定位(Natural Language Video Localization,NLVL)是一项新颖而富有挑战性的任务.该任务的目的是根据给定的查询文本从未修剪的视频中找到与这条查询文本语义最为相似的目标片段.与传统的时序动作定位任务不同,NLVL具有更强的灵活性,因为它不受预定义动作列表的限制;同时也更具挑战性,因为NLVL需要从视频和文本两种模态间对齐语义信息.此外,在对齐关系中获取最终的时间戳也是一个艰巨的任务.首先,描述了NLVL的流程;其次,根据是否有监督信息将NLVL算法分为监督方法和弱监督方法两大类并分析其优缺点;然后,总结了常用的数据集和评估指标,对现有的研究进行了总体性能的评估和分析;最后,讨论了技术难点及未来的研究趋势,为今后的工作提供参考.
文献关键词:
多模态检索;视频片段定位;视频理解;跨模态对齐;跨模态交互
中图分类号:
作者姓名:
聂秀山;潘嘉男;谭智方;刘新放;郭杰;尹义龙
作者机构:
山东建筑大学计算机科学与技术学院 济南250101;山东大学软件学院 济南250100
文献出处:
引用格式:
[1]聂秀山;潘嘉男;谭智方;刘新放;郭杰;尹义龙-.基于自然语言的视频片段定位综述)[J].计算机科学,2022(09):111-122
A类:
视频片段定位,NLVL,时序动作定位,跨模态对齐
B类:
自然语言,视频定位,Natural,Language,Video,Localization,从未,修剪,这条,文本语义,预定,列表,语义信息,时间戳,有监督,监督信息,监督方法,弱监督,两大类,总体性能,评估和分析,技术难点,研究趋势,多模态检索,视频理解,跨模态交互
AB值:
0.3625
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。