首站-论文投稿智能助手
典型文献
采用Transformer网络的视频序列表情识别
文献摘要:
目的 相比于静态人脸表情图像识别,视频序列中的各帧人脸表情强度差异较大,并且含有中性表情的帧数较多,然而现有模型无法为视频序列中每帧图像分配合适的权重.为了充分利用视频序列中的时空维度信息和不同帧图像对视频表情识别的作用力差异特点,本文提出一种基于Transformer的视频序列表情识别方法.方法 首先,将一个视频序列分成含有固定帧数的短视频片段,并采用深度残差网络对视频片段中的每帧图像学习出高层次的人脸表情特征,从而生成一个固定维度的视频片段空间特征.然后,通过设计合适的长短时记忆网络(long short-term memory network,LSTM)和Transformer模型分别从该视频片段空间特征序列中进一步学习出高层次的时间维度特征和注意力特征,并进行级联输入到全连接层,从而输出该视频片段的表情分类分数值.最后,将一个视频所有片段的表情分类分数值进行最大池化,实现该视频的最终表情分类任务.结果 在公开的BAUM-1s(Bah-cesehir University multimodal)和RML(Ryerson Multimedia Lab)视频情感数据集上的试验结果表明,该方法分别取得了60.72%和75.44%的正确识别率,优于其他对比方法的性能.结论 该方法采用端到端的学习方式,能够有效提升视频序列表情识别性能.
文献关键词:
视频序列;人脸表情识别;时空维度;深度残差网络;长短时记忆网络(LSTM);端到端;Transformer
作者姓名:
陈港;张石清;赵小明
作者机构:
台州学院智能信息处理研究所,台州 318000;浙江理工大学机械与自动控制学院,杭州 310018
引用格式:
[1]陈港;张石清;赵小明-.采用Transformer网络的视频序列表情识别)[J].中国图象图形学报,2022(10):3022-3030
A类:
BAUM,Bah,cesehir,Ryerson
B类:
Transformer,视频序列,序列表,于静,表情图,图像识别,现有模型,时空维度,对视,作用力,深度残差网络,图像学习,空间特征,长短时记忆网络,long,short,term,memory,network,特征序列,时间维度,维度特征,全连接层,表情分类,最大池化,分类任务,1s,University,multimodal,RML,Multimedia,Lab,识别率,比方,端到端,学习方式,识别性,人脸表情识别
AB值:
0.282698
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。