首站-论文投稿智能助手
典型文献
多条件生成对抗网络的文本到视频合成方法
文献摘要:
针对目前主流的模型在视频合成过程中随机性强,缺乏合成复杂场景、多样运动视频的能力的问题,提出基于多条件生成对抗网络的文本生成视频方法,包括文本处理模块、位姿建模与转换模块、视频帧生成与优化模块.文本处理模块将传统生成方法(检索与监督学习方法)与生成模型相结合建立动作检索数据库,提高生成过程的可控性;位姿建模与转换模块实现对位姿信息的提取及三维建模;视频帧生成与优化模块利用多条件生成对抗网络进行视频帧的合成与优化.在iPER,DeepFashion等公开数据集上,采用IS,SSIM,PSNR等指标进行评价的实验结果表明,与现有模型相比,所提方法生成视频的语义一致性及视频质量均具有优势.相较于目前主流的姿势转换模型MonkeyNet,在iPER数据集上的SSIM值提升了16.8%,IS提升了22.7%,PSNR值提升了27.1%.在评价姿势转换方面,在基线数据集DeepFashion进行比较,FreID值提升了26.7%.
文献关键词:
基于文本生成视频;图像处理;生成对抗网络;深度学习;高分辨率视频
作者姓名:
周瑞;姜聪;许庆阳;李贻斌;张承进;宋勇
作者机构:
山东大学机电与信息工程学院 威海 264209;山东大学控制科学与工程学院 济南 250061
引用格式:
[1]周瑞;姜聪;许庆阳;李贻斌;张承进;宋勇-.多条件生成对抗网络的文本到视频合成方法)[J].计算机辅助设计与图形学学报,2022(10):1567-1579
A类:
iPER,MonkeyNet,FreID,基于文本生成视频
B类:
多条,条件生成对抗网络,视频合成,合成方法,合成过程,随机性,复杂场景,运动视频,文本处理,位姿,转换模块,视频帧,传统生成,生成方法,监督学习,生成模型,生成过程,可控性,三维建模,DeepFashion,公开数据集,IS,SSIM,PSNR,现有模型,语义一致性,姿势,转换模型,基线数据,高分辨率视频
AB值:
0.295131
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。