典型文献
脸由音生:语音驱动的静动态人脸生成方法
文献摘要:
语音驱动人脸生成旨在挖掘语音片段和人脸之间的静动态关联性,进而由给定的语音片段生成对应的人脸图像.然而已有的研究方法大多只考虑其中的一种关联性,且对静态人脸生成的研究严格依赖于时序对齐的音视频数据,在一定程度上限制了静态模型的使用范围.提出了一种基于条件生成对抗网络的语音驱动静动态人脸生成模型(SDVF-GAN).该模型基于自注意力机制构建语音编码器网络以获得更为准确的听觉特征表达,并将其作为静态生成网络和动态生成网络的输入;静态生成网络利用基于投影层的图像判别器合成出属性一致(年龄、性别)且高质量的静态人脸图像,动态生成网络利用基于注意力思想的嘴唇判别器和图像判别器合成出嘴唇同步的动态人脸序列.实验利用所构建的属性对齐的Voice-Face数据集和公共的LRW数据集分别训练静态人脸生成网络和动态人脸生成网络.结果表明,该模型综合研究了语音和人脸之间的属性对应和嘴唇同步关系,实现了质量更高且关联性和同步性更强的人脸图像生成.
文献关键词:
语音驱动;静动态人脸生成;属性关联;嘴唇同步;生成对抗网络
中图分类号:
作者姓名:
赵璐璐;陈雁翔;赵鹏铖;朱玉鹏;盛振涛
作者机构:
合肥工业大学 计算机与信息学院,合肥 230009
文献出处:
引用格式:
[1]赵璐璐;陈雁翔;赵鹏铖;朱玉鹏;盛振涛-.脸由音生:语音驱动的静动态人脸生成方法)[J].计算机工程与应用,2022(18):122-129
A类:
语音驱动,静动态人脸生成,SDVF,嘴唇同步,LRW
B类:
生成方法,动态关联性,而已,多只,时序对齐,音视频,视频数据,静态模型,条件生成对抗网络,生成模型,GAN,自注意力机制,机制构建,语音编码,编码器,听觉,特征表达,生成网络,动态生成,判别器,和图像,Voice,Face,公共的,型综合,综合研究,同步性,人脸图像生成,属性关联
AB值:
0.222489
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。