典型文献
多模态信息处理前沿综述:应用、融合和预训练
文献摘要:
随着视觉、听觉、语言等单模态人工智能技术的突破,让计算机拥有更接近人类理解多模态信息的能力受到研究者们的广泛关注.另一方面,随着图文社交、短视频、视频会议、直播和虚拟数字人等应用的涌现,对多模态信息处理技术提出了更高要求,同时也给多模态研究提供了海量的数据和丰富的应用场景.该文首先介绍了近期自然语言处理领域关注度较高的多模态应用,并从单模态的特征表示、多模态的特征融合阶段、融合模型的网络结构、未对齐模态和模态缺失下的多模态融合等角度综述了主流的多模态融合方法,同时也综合分析了视觉-语言跨模态预训练模型的最新进展.
文献关键词:
多模态信息处理;多模态融合;多模态预训练;自然语言处理
中图分类号:
作者姓名:
吴友政;李浩然;姚霆;何晓冬
作者机构:
京东人工智能研究院,北京 100101
文献出处:
引用格式:
[1]吴友政;李浩然;姚霆;何晓冬-.多模态信息处理前沿综述:应用、融合和预训练)[J].中文信息学报,2022(05):1-20
A类:
多模态信息处理
B类:
听觉,单模,图文,文社,视频会议,虚拟数字人,信息处理技术,自然语言处理,特征表示,特征融合,融合模型,对齐,多模态融合,融合方法,跨模态,预训练模型,最新进展,多模态预训练
AB值:
0.201932
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。