典型文献
融合视觉词与自注意力机制的视频目标分割
文献摘要:
目的 视频目标分割(video object segmentation,VOS)是在给定初始帧的目标掩码条件下,实现对整个视频序列中感兴趣对象的分割,但是视频中往往会出现目标形状不规则、背景中存在干扰信息和运动速度过快等情况,影响视频目标分割质量.对此,本文提出一种融合视觉词和自注意力机制的视频目标分割算法.方法 对于参考帧,首先将其图像输入编码器中,提取分辨率为原图像1/8的像素特征.然后将该特征输入由若干卷积核构成的嵌入空间中,并将其结果上采样至原始尺寸.最后结合参考帧的目标掩码信息,通过聚类算法对嵌入空间中的像素进行聚类分簇,形成用于表示目标对象的视觉词.对于目标帧,首先将其图像通过编码器并输入嵌入空间中,通过单词匹配操作用参考帧生成的视觉词来表示嵌入空间中的像素,并获得多个相似图.然后,对相似图应用自注意力机制捕获全局依赖关系,最后取通道方向上的最大值作为预测结果.为了解决目标对象的外观变化和视觉词失配的问题,提出在线更新机制和全局校正机制以进一步提高准确率.结果 实验结果表明,本文方法在视频目标分割数据集DAVIS(densely annotated video segmentation)2016和DAVIS 2017上取得了有竞争力的结果,区域相似度与轮廓精度之间的平均值J&F-mean(Jaccard and F-score mean)分别为83.2%和72.3%.结论 本文提出的算法可以有效地处理由遮挡、变形和视点变化等带来的干扰问题,实现高质量的视频目标分割.
文献关键词:
视频目标分割(VOS);聚类算法;视觉词;自注意力机制;在线更新机制;全局校正机制
中图分类号:
作者姓名:
季传俊;陈亚当;车洵
作者机构:
南京信息工程大学计算机学院、软件学院、网络空间安全学院,南京 210044;数字取证教育部工程研究中心,南京 210044;南京众智维信息科技有限公司,南京 210006
文献出处:
引用格式:
[1]季传俊;陈亚当;车洵-.融合视觉词与自注意力机制的视频目标分割)[J].中国图象图形学报,2022(08):2444-2457
A类:
在线更新机制,全局校正机制
B类:
融合视觉,视觉词,自注意力机制,视频目标分割,video,object,segmentation,VOS,掩码,视频序列,感兴趣,运动速度,分割算法,参考帧,入编,编码器,取分,原图,像素,卷积核,上采样,聚类算法,分簇,单词,依赖关系,外观变化,失配,DAVIS,densely,annotated,轮廓精度,mean,Jaccard,score,遮挡,视点,干扰问题
AB值:
0.259833
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。