音频驱动跨模态视觉生成算法综述|姜莱;于震;王鹏飞;周东生;侯亚庆|大连理工大学计算机科学与技术学院,辽宁大连 116024 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

音频驱动跨模态视觉生成算法综述

文献摘要：

由于音频驱动的跨模态视觉生成算法具有广泛地应用场景,近年来已得到产业界和科研界的广泛关注.音频和视觉为人们日常生活中最重要和常见的2种模态,然而设计一种能够创意地想象出与音频相对应的视觉场景一直是一个巨大挑战,目前关于音频驱动的跨模态视觉生成问题在已有文献中尚未得到系统而全面地研究.针对现有音频驱动的跨模态视觉生成算法进行概述,并将其分为音频到图像、音频到肢体动作视频和音频到说话人脸视频3类.首先阐述其具体应用领域与主流算法流程,并对涉及框架技术进行解析,然后按照技术推进的顺序对相关算法的核心内容与优劣势进行阐述,并解释其生成表现效果,最后对目前领域内所面临的机遇和挑战进行讨论,给出未来研究方向.

文献关键词：

跨模态生成;音频;视觉;深度学习;综述

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391） / 模式识别与装置（TP391.4）

[2] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18） / 人工神经网络与计算（TP183）

[3] 自动化技术、计算机技术（TP） / 自动化技术及设备（TP2） / 机器人技术（TP24） / 机器人（TP242）

作者姓名：

姜莱;于震;王鹏飞;周东生;侯亚庆

作者机构：

广东技术师范大学音乐学院,广东广州 510665;大连理工大学计算机科学与技术学院,辽宁大连 116024;大连大学软件学院,辽宁大连 116622

文献出处：

引用格式：

[1]姜莱;于震;王鹏飞;周东生;侯亚庆-.音频驱动跨模态视觉生成算法综述)[J].图学学报,2022(02):181-188

A类：

B类：

音频,生成算法,已得,产业界,视觉场景,成问题,肢体动作,和音,说话,人脸视频,流算法,框架技术,技术推进,优劣势,未来研究方向,跨模态生成

AB值：

0.311931

相似文献

时序对齐视觉特征映射的音效生成方法

谢志峰;孙络祎;孙郁洲;余椿鹏;马利庄-上海大学影视工程系上海 200072;上海大学上海电影特效工程技术研究中心上海 200072;上海交通大学计算机科学与工程系上海 200240

基于还音转换规则的胶片音频生成方法

王睿琦;程皓楠;叶龙;齐秋棠-中国传媒大学媒介音视频教育部重点实验室北京 100024;中国传媒大学媒体融合与传播国家重点实验室北京 100024

视觉-语言导航的研究进展与发展趋势

牛凯;王鹏-西北工业大学计算机学院西安 710129

基于语义伪标签和双重特征存储库的无监督跨模态行人重识别

孙锐;余益衡;张磊;张旭东-合肥工业大学计算机与信息学院合肥230601;合肥工业大学工业安全与应急技术安徽省重点实验室合肥230009

深度学习跨模态图文检索研究综述

刘颖;郭莹莹;房杰;范九伦;郝羽;刘继明-西安邮电大学图像与信息处理研究所,西安 710121;陕西省无线通信与信息处理技术国际合作研究中心,西安 710121;西安邮电大学电子信息现场勘验应用技术公安部重点实验室,西安 710121;西安邮电大学通信与信息工程学院,西安 710121

基于在线交互学习的语言在线测试系统设计

左世亮;严明-上海应用技术大学,上海 201418

基于深度学习的行人重识别综述

杨永胜;邓淼磊;李磊;张德贤-河南工业大学信息科学与工程学院,郑州 450001;河南省粮食信息处理国际联合实验室,郑州 450001

多媒体隐写研究进展

张卫明;王宏霞;李斌;任延珍;杨忠良;陈可江;李伟祥;张新鹏;俞能海-中国科学技术大学网络空间安全学院,合肥 230027;四川大学网络空间安全学院,成都 610207;深圳大学广东省智能信息处理重点实验室及深圳市媒体信息内容安全重点实验室,深圳 518060;武汉大学国家网络安全学院,武汉 430072;清华大学电子工程系,北京 100084;复旦大学计算机科学技术学院,上海 200438

文化遗产活化关键技术研究进展

耿国华;何雪磊;王美丽;李康;贺小伟-西北大学信息科学与技术学院,西安 710127;西安市影像组学与智能感知重点实验室,西安 710127;西北农林科技大学信息工程学院,杨凌 712100

面向海洋的多模态智能计算:挑战、进展和展望

聂婕;左子杰;黄磊;王志刚;孙正雅;仲国强;王鑫;王玉成;刘安安;张弘;董军宇;魏志强-中国海洋大学,青岛 266100;中国科学院自动化研究所,北京 100190;清华大学计算机科学与技术系,北京 100084;青岛海洋科学与技术试点国家实验室,青岛 266061;天津大学电气自动化与信息工程学院,天津 300072;北京航空航天大学宇航学院,北京 100083

面向跨模态行人重识别的单模态自监督信息挖掘

吴岸聪;林城梽;郑伟诗-中山大学计算机学院,广州 510006

改进U-Net3+与跨模态注意力块的医学图像融合

王丽芳;米嘉;秦品乐;蔺素珍;高媛;刘阳-中北大学大数据学院山西省生物医学成像与影像大数据重点实验室,太原 030051

基于多模态深度学习的音乐情感分类算法

周萍-南昌职业大学信息技术学院,南昌330500

多负例对比机制下的跨模态表示学习

丁凯旋;陈雁翔;赵鹏铖;朱玉鹏;盛振涛-合肥工业大学计算机与信息学院,合肥 230601

跨模态检索技术研究综述

徐文婉;周小平;王佳-北京建筑大学电气与信息工程学院,北京 100044

生成对抗网络文字生成图像算法综述

邓博;贺春林;徐黎明;宋兰玉-西华师范大学计算机学院,四川南充 637009

深度伪造生成与检测研究综述

唐玉敏;范菁;曲金帅-云南民族大学电气信息工程学院,昆明 650500;云南省高校通信与信息安全灾备重点实验室,昆明 650500

跨模态检索研究综述

侯腾达;金冉;王晏祎;蒋义凯-浙江万里学院大数据与软件工程学院,浙江宁波 315100;浙江大学计算机科学与技术学院,杭州 310027

结合年龄监督和人脸先验的语音-人脸图像重建

何立;庞善民-西安交通大学软件学院,陕西西安 710049

深度监督对齐的零样本图像分类方法

曾素佳;庞善民;郝问裕-西安交通大学软件学院,陕西西安710049

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。