典型文献
基于深度学习的词语级中文唇语识别
文献摘要:
在无声或噪声干扰严重的环境下,或对于存在听觉障碍的人群,唇语识别至关重要.针对词语级中文唇语识别的问题,提出了 SinoLipReadingNet模型,前端采用Conv3D+ResNet34结构用于时空特征提取,后端分别采用Conv1D结构和Bi-LSTM结构用于分类预测,并引入Self-Attention、CTCLoss对Bi-LSTM后端进行改进.最终在新网银行唇语识别数据集上进行实验,结果表明,SinoLipReadingNet模型在识别准确率上明显优于中科院D3D模型,多模型融合的预测准确率达到了 77.64%,平均字错率为21.68%.
文献关键词:
唇语识别;ResNet;Bi-LSTM;CTCLoss;自注意力机制
中图分类号:
作者姓名:
陈红顺;陈观明
作者机构:
北京师范大学珠海分校信息技术学院,广东珠海519087;珠海欧比特宇航科技股份有限公司,广东珠海519080
文献出处:
引用格式:
[1]陈红顺;陈观明-.基于深度学习的词语级中文唇语识别)[J].电子技术应用,2022(12):54-58
A类:
SinoLipReadingNet,Conv3D+ResNet34,CTCLoss
B类:
词语,唇语识别,无声,噪声干扰,听觉障碍,时空特征提取,后端,Conv1D,Bi,分类预测,Self,Attention,新网,别数,识别准确率,上明,中科院,D3D,多模型融合,预测准确率,自注意力机制
AB值:
0.369403
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。