首站-论文投稿智能助手
典型文献
视觉语言多模态预训练综述
文献摘要:
在多模态机器学习领域,为特定任务而制作的人工标注数据昂贵,且不同任务难以进行迁移,从而需要大量重新训练,导致训练多个任务时效率低下、资源浪费.预训练模型通过以自监督为代表的方式进行大规模数据训练,对数据集中不同模态的信息进行提取和融合,以学习其中蕴涵的通用知识表征,从而服务于广泛的相关下游视觉语言多模态任务,这一方法逐渐成为人工智能各领域的主流方法.依靠互联网所获取的大规模图文对与视频数据,以及以自监督学习为代表的预训练方法的进步,视觉语言多模态预训练模型在很大程度上打破了不同视觉语言任务之间的壁垒,提升了多个任务训练的效率并促进了具体任务的性能表现.本文总结视觉语言多模态预训练领域的进展,首先对常见的预训练数据集和预训练方法进行汇总,然后对目前最新方法以及经典方法进行系统概述,按输入来源分为图像—文本预训练模型和视频—文本多模态模型两大类,阐述了各方法之间的共性和差异,并将各模型在具体下游任务上的实验情况进行汇总.最后,总结了视觉语言预训练面临的挑战和未来发展趋势.
文献关键词:
多模态机器学习;视觉语言多模态;预训练;自监督学习;图像文本预训练;视频文本预训练
作者姓名:
张浩宇;王天保;李孟择;赵洲;浦世亮;吴飞
作者机构:
浙江大学计算机与科学技术学院,杭州 310013;杭州海康威视数字技术股份有限公司,杭州 310051
引用格式:
[1]张浩宇;王天保;李孟择;赵洲;浦世亮;吴飞-.视觉语言多模态预训练综述)[J].中国图象图形学报,2022(09):2652-2682
A类:
视觉语言多模态,多模态机器学习,图像文本预训练,视频文本预训练
B类:
多模态预训练,学习领域,昂贵,大量重,新训,资源浪费,预训练模型,大规模数据,数据训练,蕴涵,知识表征,关下,主流方法,大规模图,图文,视频数据,自监督学习,训练方法,语言任务,具体任务,训练数据集,经典方法,两大类
AB值:
0.208668
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。