典型文献
结合双流网络和双向五元组损失的跨人脸-语音匹配
文献摘要:
面部视觉信息和语音信息是人机交互过程中最为直接和灵活的方式,从而基于智能方式的人脸和语音跨模态感知吸引了国内外研究学者的广泛关注.然而,由于人脸-语音样本的异质性以及语义鸿沟问题,现有方法并不能很好地解决一些难度比较高的跨人脸-语音匹配任务.提出了一种结合双流网络和双向五元组损失的跨人脸-语音特征学习框架,该框架学到的特征可直接用于4种不同的跨人脸-语音匹配任务.首先,在双流深度网络顶端引入一种新的权重共享的多模态加权残差网络,以挖掘人脸和语音模态间的语义关联;接着,设计了一种融合多种样本对构造策略的双向五元组损失,极大地提高了数据利用率和模型的泛化性能;最后,在模型训练中进行ID分类学习,以保证跨模态表示的可分性.实验结果表明,与现有方法相比,能够在4个不同跨人脸-语音匹配任务上取得效果的全面提升,某些评价指标效果提升近5%.
文献关键词:
人脸-语音关联;跨模态感知;双流网络;双向五元组损失;加权残差网络
中图分类号:
作者姓名:
柳欣;王锐;钟必能;王楠楠
作者机构:
华侨大学计算机科学与技术学院 福建厦门 361021;综合业务网理论及关键技术国家重点实验室(西安电子科技大学)西安 710071;厦门市计算机视觉与模式识别重点实验室(华侨大学)福建厦门 361021;广西师范大学计算机科学与信息工程学院 广西桂林 541004
文献出处:
引用格式:
[1]柳欣;王锐;钟必能;王楠楠-.结合双流网络和双向五元组损失的跨人脸-语音匹配)[J].计算机研究与发展,2022(03):694-705
A类:
双向五元组损失,跨模态感知,加权残差网络
B类:
双流网络,人脸,视觉信息,音信,人机交互,语义鸿沟,语音特征,特征学习,学到,深度网络,顶端,权重共享,语义关联,构造策略,极大地提高,数据利用率,泛化性能,模型训练,ID,分类学,可分性,取得效果,效果提升
AB值:
0.238428
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。