视觉语言多模态预训练综述|张浩宇;王天保;李孟择;赵洲;浦世亮;吴飞|杭州海康威视数字技术股份有限公司,杭州 310051 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

视觉语言多模态预训练综述

文献摘要：

在多模态机器学习领域,为特定任务而制作的人工标注数据昂贵,且不同任务难以进行迁移,从而需要大量重新训练,导致训练多个任务时效率低下、资源浪费.预训练模型通过以自监督为代表的方式进行大规模数据训练,对数据集中不同模态的信息进行提取和融合,以学习其中蕴涵的通用知识表征,从而服务于广泛的相关下游视觉语言多模态任务,这一方法逐渐成为人工智能各领域的主流方法.依靠互联网所获取的大规模图文对与视频数据,以及以自监督学习为代表的预训练方法的进步,视觉语言多模态预训练模型在很大程度上打破了不同视觉语言任务之间的壁垒,提升了多个任务训练的效率并促进了具体任务的性能表现.本文总结视觉语言多模态预训练领域的进展,首先对常见的预训练数据集和预训练方法进行汇总,然后对目前最新方法以及经典方法进行系统概述,按输入来源分为图像—文本预训练模型和视频—文本多模态模型两大类,阐述了各方法之间的共性和差异,并将各模型在具体下游任务上的实验情况进行汇总.最后,总结了视觉语言预训练面临的挑战和未来发展趋势.

文献关键词：

多模态机器学习;视觉语言多模态;预训练;自监督学习;图像文本预训练;视频文本预训练

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391）

[2] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391） / 文字信息处理（TP391.1）

[3] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391） / 模式识别与装置（TP391.4）

作者姓名：

张浩宇;王天保;李孟择;赵洲;浦世亮;吴飞

作者机构：

浙江大学计算机与科学技术学院,杭州 310013;杭州海康威视数字技术股份有限公司,杭州 310051

文献出处：

中国图象图形学报

引用格式：

[1]张浩宇;王天保;李孟择;赵洲;浦世亮;吴飞-.视觉语言多模态预训练综述)[J].中国图象图形学报,2022(09):2652-2682

A类：

视觉语言多模态,多模态机器学习,图像文本预训练,视频文本预训练

B类：

多模态预训练,学习领域,昂贵,大量重,新训,资源浪费,预训练模型,大规模数据,数据训练,蕴涵,知识表征,关下,主流方法,大规模图,图文,视频数据,自监督学习,训练方法,语言任务,具体任务,训练数据集,经典方法,两大类

AB值：

0.208668

相似文献

新一代知识图谱关键技术综述

王萌;王昊奋;李博涵;赵翔;王鑫-东南大学计算机科学与工程学院南京 211189;同济大学创意设计学院上海 200092;南京航空航天大学计算机学院南京 211106;国防科技大学信息系统工程国家重点实验室长沙 410073;天津大学智能与计算学部天津 300072

面向小样本情感分类任务的弱监督对比学习框架

卢绍帅;陈龙;卢光跃;管子玉;谢飞-西安邮电大学通信与信息工程学院西安 710121;西安电子科技大学计算机科学与技术学院西安 710071;西安电子科技大学前沿交叉研究院西安 710071

自监督聚类重训练的语音表示学习

张文林;刘雪鹏;牛铜;杨绪魁;屈丹-中国人民解放军战略支援部队信息工程大学信息系统工程学院郑州450001

基于MPNet预训练和多头注意力特征融合的引文意图分类方法

祁瑞华;邵震;关菁华;郭旭-大连外国语大学语言智能研究中心大连116044;大连外国语大学软件学院大连116044

BERT辅助金融领域人物关系图谱构建

张纯鹏;辜希武;李瑞轩;李玉华;刘伟-华中科技大学计算机科学与技术学院,武汉 430074

融合BERT和自编码网络的短文本聚类研究

朱良奇;黄勃;黄季涛;马莉媛;史志才-上海工程技术大学电子电气工程学院,上海 201620;上海信息安全综合管理技术重点实验室,上海 200240

融合领域特征的科技学术会议语义相似性计算方法

于润羽;李雅文;李昂-北京邮电大学智能通信软件与多媒体北京市重点实验室,北京100876;北京邮电大学经济管理学院,北京 100876

蒙汉神经机器翻译研究综述

侯宏旭;孙硕;乌尼尔-内蒙古大学计算机学院呼和浩特010021;蒙古文智能信息处理技术国家地方联合工程研究中心呼和浩特010021;内蒙古自治区蒙古文信息处理技术重点实验室呼和浩特010021

多语言问答研究综述

刘创;熊德意-天津大学智能与计算学部天津 300350

一种服饰风格特征指导下的服装搭配学习模型

刘锐;彭敦陆-上海理工大学光电信息与计算机工程学院,上海200093

图神经网络预训练综述

邢小雷;赵超;郑江文;温可欣-河北工程大学信息与电气工程学院,河北邯郸056038;河北工程大学管理工程与商学院,河北邯郸056038

基于多模态融合与多层注意力的视频内容文本表述研究

赵宏;郭岚;陈志文;郑厚泽-兰州理工大学计算机与通信学院,兰州 730050

文本摘要模型的研究进展

张紫芸;王文发;马乐荣;丁苍峰-延安大学数学与计算机科学学院,陕西延安716000

多神经网络协作的电力文本类型识别

陈鹏;吴旻荣;蔡冰;何晓勇;金兆轩;金志刚;侯瑞-国网宁夏电力有限公司,银川750001;天津大学电气自动化与信息工程学院,天津300072;华北电力大学苏州研究院,苏州215123;华北电力大学经济与管理学院,北京102206

基于深度学习的多模态融合三维人脸识别

胡乃平;贾浩杰-青岛科技大学信息科学技术学院,青岛266061

少样本条件下基于自监督改进SimDet模型的消毒场景目标检测

蔡汝佳;江文萱;齐立哲;孙云权-复旦大学工程与应用技术研究院,上海200082

基于多模态融合的文本生成图像

叶龙;王正勇;何小海-四川大学电子信息学院,成都610065

多模态特征融合的视频记忆度预测

常诗颖;胡燕-武汉理工大学计算机科学与技术学院,武汉 430070

基于ALBERT-UniLM模型的文本自动摘要技术研究

孙宝山;谭浩-天津工业大学计算机科学与技术学院,天津 300387;天津市自主智能技术与系统重点实验室,天津 300387

电子病历命名实体识别技术研究综述

吴智妍;金卫;岳路;生慧-山东中医药大学智能与信息工程学院,济南 250355

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。