首站-论文投稿智能助手
典型文献
基于Vision Transformer的中文唇语识别
文献摘要:
唇语识别作为一种将唇读视频转换为文本的多模态任务,旨在理解说话者在无声情况下表达的意思.目前唇语识别主要利用卷积神经网络提取唇部视觉特征,捕获短距离像素关系,难以区分相似发音字符的唇形.为了捕获视频图像中唇部区域像素之间的长距离关系,文中提出基于Vision Transformer(ViT)的端到端中文句子级唇语识别模型,融合ViT和门控循环单元(Gate Recurrent Unit,GRU),提高对嘴唇视频的视觉时空特征提取能力.具体地,首先使用ViT的自注意力模块提取嘴唇图像的全局空间特征,再通过GRU对帧序列时序建模,最后使用基于注意力机制的级联序列到序列模型实现对拼音和汉字语句的预测.在中文唇语识别数据集CMLR上的实验表明,文中模型的汉字错误率较低.
文献关键词:
唇语识别;Vision Transformer(ViT);深度神经网络;编解码器;注意力机制;特征提取
作者姓名:
薛峰;洪自坤;李书杰;李雨;谢胤岑
作者机构:
合肥工业大学软件学院 合肥230601;合肥工业大学计算机与信息学院 合肥230601
引用格式:
[1]薛峰;洪自坤;李书杰;李雨;谢胤岑-.基于Vision Transformer的中文唇语识别)[J].模式识别与人工智能,2022(12):1111-1121
A类:
唇读,CMLR
B类:
Vision,Transformer,唇语识别,解说,说话,无声,声情,意思,唇部,视觉特征,短距离,距离像,像素,发音,字符,唇形,视频图像,长距离,ViT,端到端,文句,句子级,识别模型,门控循环单元,Gate,Recurrent,Unit,GRU,嘴唇,时空特征提取,特征提取能力,自注意力模块,空间特征,时序建模,注意力机制,序列到序列模型,模型实现,拼音,汉字,语句,别数,错误率,深度神经网络,编解码器
AB值:
0.425738
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。