典型文献
时序对齐视觉特征映射的音效生成方法
文献摘要:
针对目前视觉引导的音效生成方法存在的保真度低、时序对齐效果差等问题,提出一种基于时序对齐视觉特征映射的音效生成方法.首先,设计基于时序约束的特征聚合窗口,将视频序列滑动整合为视觉特征集合;其次,构建时空匹配的跨模态视音频特征映射网络,将视觉特征集合转换为多频段音频特征;最后,采用音频解码器将音频特征解码为梅尔频谱,再使用声码器将其转换为最终波形.在VAS数据集上进行定性与定量实验,实验结果表明,与现有方法相比,文中方法在语音质量感知评估、发声点平均偏移量以及人工评估方面均有显著提升,其中,发声点平均偏移量平均降低至0.2 s.
文献关键词:
音效生成;跨模态;自编码器;时序对齐
中图分类号:
作者姓名:
谢志峰;孙络祎;孙郁洲;余椿鹏;马利庄
作者机构:
上海大学影视工程系 上海 200072;上海大学上海电影特效工程技术研究中心 上海 200072;上海交通大学计算机科学与工程系 上海 200240
文献出处:
引用格式:
[1]谢志峰;孙络祎;孙郁洲;余椿鹏;马利庄-.时序对齐视觉特征映射的音效生成方法)[J].计算机辅助设计与图形学学报,2022(10):1506-1514
A类:
音效生成
B类:
时序对齐,视觉特征,特征映射,生成方法,视觉引导,保真度,时序约束,特征聚合,视频序列,特征集合,时空匹配,跨模态,视音频,音频特征,多频段,音频解码,解码器,征解,梅尔频谱,声码,VAS,定性与定量,定量实验,中方,语音质量,质量感知,感知评估,发声,偏移量,自编码器
AB值:
0.346001
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。