FAILED
首站-论文投稿智能助手
典型文献
音频驱动跨模态视觉生成算法综述
文献摘要:
由于音频驱动的跨模态视觉生成算法具有广泛地应用场景,近年来已得到产业界和科研界的广泛关注.音频和视觉为人们日常生活中最重要和常见的2种模态,然而设计一种能够创意地想象出与音频相对应的视觉场景一直是一个巨大挑战,目前关于音频驱动的跨模态视觉生成问题在已有文献中尚未得到系统而全面地研究.针对现有音频驱动的跨模态视觉生成算法进行概述,并将其分为音频到图像、音频到肢体动作视频和音频到说话人脸视频3类.首先阐述其具体应用领域与主流算法流程,并对涉及框架技术进行解析,然后按照技术推进的顺序对相关算法的核心内容与优劣势进行阐述,并解释其生成表现效果,最后对目前领域内所面临的机遇和挑战进行讨论,给出未来研究方向.
文献关键词:
跨模态生成;音频;视觉;深度学习;综述
作者姓名:
姜莱;于震;王鹏飞;周东生;侯亚庆
作者机构:
广东技术师范大学音乐学院,广东 广州 510665;大连理工大学计算机科学与技术学院,辽宁 大连 116024;大连大学软件学院,辽宁 大连 116622
文献出处:
引用格式:
[1]姜莱;于震;王鹏飞;周东生;侯亚庆-.音频驱动跨模态视觉生成算法综述)[J].图学学报,2022(02):181-188
A类:
B类:
音频,生成算法,已得,产业界,视觉场景,成问题,肢体动作,和音,说话,人脸视频,流算法,框架技术,技术推进,优劣势,未来研究方向,跨模态生成
AB值:
0.311931
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。