首站-论文投稿智能助手
典型文献
基于数据增强视觉Transformer的细粒度图像分类
文献摘要:
近来,视觉Transformer(vision transformer,ViT)在图像识别领域取得突破性进展,其自我注意力机制(self-attention mechanism,MSA)能够提取不同像素块的判别性标记信息进而提升图像分类精度,但其深层中的分类标记容易忽略层级之间的局部特征,此外,嵌入层将固定大小的像素块输入网络,不可避免地引入额外的图像噪声.为此,本文研究了一种基于数据增强的视觉Transformer(data augmentation vision transformer,DAVT),并提出注意力裁剪的数据增强方法,以注意力权重为指导裁剪图像,提高网络学习关键特征的能力.其次,本文还提出层级注意力选择方法(hierarchical attention selection,HAS),它通过对层级之间标记进行筛选并融合,提升网络学习层级之间判别性标记的能力.实验结果表明,该方法在CUB-200-2011和Stanford Dogs两个通用数据集上的准确率优于现有的主流方法,其准确率比原始ViT分别提高1.4%和1.6%.
文献关键词:
细粒度图像分类;层级注意力选择;数据增强机制;图像识别
作者姓名:
胡晓斌;彭太乐
作者机构:
淮北师范大学计算机科学与技术学院,安徽淮北235000
引用格式:
[1]胡晓斌;彭太乐-.基于数据增强视觉Transformer的细粒度图像分类)[J].西华大学学报(自然科学版),2022(06):9-16
A类:
DAVT,层级注意力选择,数据增强机制
B类:
Transformer,细粒度图像分类,近来,vision,transformer,ViT,图像识别,自我注意,注意力机制,self,attention,mechanism,MSA,像素块,判别性,分类精度,分类标记,局部特征,嵌入层,入网,图像噪声,data,augmentation,裁剪,增强方法,注意力权重,重为,网络学习,关键特征,出层,选择方法,hierarchical,selection,HAS,CUB,Stanford,Dogs,通用数据,主流方法
AB值:
0.413735
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。