时序对齐视觉特征映射的音效生成方法|谢志峰;孙络祎;孙郁洲;余椿鹏;马利庄|上海大学上海电影特效工程技术研究中心上海 200072 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

时序对齐视觉特征映射的音效生成方法

文献摘要：

针对目前视觉引导的音效生成方法存在的保真度低、时序对齐效果差等问题,提出一种基于时序对齐视觉特征映射的音效生成方法.首先,设计基于时序约束的特征聚合窗口,将视频序列滑动整合为视觉特征集合;其次,构建时空匹配的跨模态视音频特征映射网络,将视觉特征集合转换为多频段音频特征;最后,采用音频解码器将音频特征解码为梅尔频谱,再使用声码器将其转换为最终波形.在VAS数据集上进行定性与定量实验,实验结果表明,与现有方法相比,文中方法在语音质量感知评估、发声点平均偏移量以及人工评估方面均有显著提升,其中,发声点平均偏移量平均降低至0.2 s.

文献关键词：

音效生成;跨模态;自编码器;时序对齐

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391）

[2] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391） / 模式识别与装置（TP391.4）

[3] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18） / 人工神经网络与计算（TP183）

作者姓名：

谢志峰;孙络祎;孙郁洲;余椿鹏;马利庄

作者机构：

上海大学影视工程系上海 200072;上海大学上海电影特效工程技术研究中心上海 200072;上海交通大学计算机科学与工程系上海 200240

文献出处：

计算机辅助设计与图形学学报

引用格式：

[1]谢志峰;孙络祎;孙郁洲;余椿鹏;马利庄-.时序对齐视觉特征映射的音效生成方法)[J].计算机辅助设计与图形学学报,2022(10):1506-1514

A类：

音效生成

B类：

时序对齐,视觉特征,特征映射,生成方法,视觉引导,保真度,时序约束,特征聚合,视频序列,特征集合,时空匹配,跨模态,视音频,音频特征,多频段,音频解码,解码器,征解,梅尔频谱,声码,VAS,定性与定量,定量实验,中方,语音质量,质量感知,感知评估,发声,偏移量,自编码器

AB值：

0.346001

相似文献

基于样本特征解码约束的GANs

陈泓佑;陈帆;和红杰;朱翌明-西南交通大学信号与信息处理四川省高校重点实验室成都611756

基于多重注意结构的图像密集描述生成方法研究

刘青茹;李刚;赵创;顾广华;赵耀-燕山大学信息科学与工程学院秦皇岛066004;河北省信息传输与信号处理重点实验室秦皇岛066004;北京交通大学信息科学研究所北京100044

基于显著性特征提取的图像描述算法

王鑫;宋永红;张元林-西安交通大学软件学院西安710049;西安交通大学人工智能学院西安710049

基于Lmser-in-Lmser双向网络的人脸素描图像生成方法

盛庆杰;苏锐丹;涂仕奎;徐雷-上海交通大学电子信息与电气工程学院上海200240

基于Vision Transformer的中文唇语识别

薛峰;洪自坤;李书杰;李雨;谢胤岑-合肥工业大学软件学院合肥230601;合肥工业大学计算机与信息学院合肥230601

基于Transformer交叉注意力的文本生成图像技术

谈馨悦;何小海;王正勇;罗晓东;卿粼波-四川大学电子信息学院成都610065

基于对偶变分多模态注意力网络的不完备社会事件分类方法

周旭;钱胜胜;李章明;方全;徐常胜-郑州大学河南先进技术研究院郑州450000;中国科学院自动化研究所模式识别国家重点实验室北京100190

基于粒度感知和语义聚合的图像-文本检索网络

缪岚芯;雷雨;曾鹏鹏;李晓瑜;宋井宽-电子科技大学计算机科学与工程学院(网络空间安全学院) 成都 611731;电子科技大学信息与软件工程学院成都 610054

使用词对齐半监督对抗学习的汉越跨语言摘要生成方法

王剑;张莹;余正涛;黄于欣-昆明理工大学信息工程与自动化学院,昆明650500;昆明理工大学云南省人工智能重点实验室,昆明650500

面向受损网络嵌入的深度降噪自编码器模型

李智杰;王启辉;李昌华;张颉-西安建筑科技大学信息与控制工程学院,西安710055

中文水印字库的自动生成方法

孙杉;张卫明;方涵;俞能海-中国科学技术大学网络空间安全学院, 合肥 230027;中国科学院电磁空间信息重点实验室, 合肥 230027

提取全局语义信息的场景图生成算法

段静雯;闵卫东;杨子元;张煜;陈鑫浩;杨升宝-南昌大学信息工程学院,南昌 330031;南昌大学软件学院,南昌 330047;江西省智慧城市重点实验室,南昌 330047

低比特率语音流大容量分层隐写方法

苏兆品;张羚;张国富-合肥工业大学计算机与信息学院,合肥 230601;大数据知识工程教育部重点实验室(合肥工业大学), 合肥 230601;智能互联系统安徽省实验室(合肥工业大学),合肥 230009;工业安全应急技术安徽省重点实验室(合肥工业大学),合肥 230601

基于语义融合和多重相似性学习的跨模态检索

曾奕斌;葛红-华南师范大学计算机学院,广东广州 510631

基于时空注意力机制的新冠肺炎疫情预测模型

鲍昕;谭智一;鲍秉坤;徐常胜-南京邮电大学通信与信息工程学院,南京210003;中国科学院自动化研究所模式识别国家重点实验室,北京100080

脸由音生:语音驱动的静动态人脸生成方法

赵璐璐;陈雁翔;赵鹏铖;朱玉鹏;盛振涛-合肥工业大学计算机与信息学院,合肥 230009

多负例对比机制下的跨模态表示学习

丁凯旋;陈雁翔;赵鹏铖;朱玉鹏;盛振涛-合肥工业大学计算机与信息学院,合肥 230601

基于视觉特征引导融合的视频描述方法

苗教伟;季怡;刘纯平-苏州大学计算机科学与技术学院,江苏苏州 215006

基于注意力机制和编码-解码架构的施工场景图像描述方法

农元君;王俊杰;陈红;孙文涵;耿慧;李书悦-中国海洋大学工程学院,山东青岛 266100

深度监督对齐的零样本图像分类方法

曾素佳;庞善民;郝问裕-西安交通大学软件学院,陕西西安710049

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。