典型文献
融合辅助目标学习和卷积循环网络的非侵入式语音质量评价算法
文献摘要:
语音质量的客观评价可以代替昂贵的人工评分,但是目前客观指标的计算通常需要纯净的参考语音,这在许多实际声学系统中很难获得.为此提出了一种融合辅助目标学习和卷积循环网络(CRN)的非侵入式语音质量评价算法.为降低算法的复杂度,算法采用基于仿人耳听觉特性滤波器的Bark频率倒谱系数(BFCCs)作为CRN的输入.算法首先构建一个卷积神经网络(CNN)从BFCCs中提取帧级特征.然后,构建双向的长短记忆网络,在帧级特征中建模长期的时间依赖性和序列特征.最后,利用自注意力机制自适应地从帧级特征中筛选出有用信息,将其整合至话语层面的特征中,并将这些话语级特征映射为客观得分.为改善质量评测的有效性,算法采用多任务训练策略,引入语音激活检测(VAD)作为辅助学习目标.基于开源数据库的实验显示,与其他非侵入式算法相比,提出的算法和平均主观意见分(MOS)具有更好的相关性.而且,算法参数规模较小且对ITU-T P.808发布的带有主观MOS的失真语音数据库具有良好的泛化能力,接近语音质量感知评估(PESQ)指标的精度.
文献关键词:
中图分类号:
作者姓名:
唐闺臣;梁瑞宇;孔凡留;谢跃;鞠梦洁
作者机构:
南京工程学院信息与通信工程学院 南京 211167;东南大学信息科学与工程学院 南京 210096
文献出处:
引用格式:
[1]唐闺臣;梁瑞宇;孔凡留;谢跃;鞠梦洁-.融合辅助目标学习和卷积循环网络的非侵入式语音质量评价算法)[J].声学学报,2022(05):692-702
A类:
BFCCs
B类:
目标学习,卷积循环网络,非侵入式,语音质量,客观评价,昂贵,人工评分,客观指标,纯净,考语,声学,CRN,人耳听觉,滤波器,Bark,倒谱系数,长短记忆网络,模长,时间依赖性,序列特征,自注意力机制,特征映射,质量评测,多任务,训练策略,语音激活,活检,VAD,学习目标,开源数据,MOS,算法参数,规模较,ITU,失真,语音数据库,泛化能力,质量感知,感知评估,PESQ
AB值:
0.41254
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。