典型文献
面向对抗样本的深度神经网络可解释性分析
文献摘要:
虽然深度神经网络(Deep neural networks,DNNs)在许多任务上取得了显著的效果,但是由于其可解释性(In-terpretability)较差,通常被当做"黑盒"模型.本文针对图像分类任务,利用对抗样本(Adversarial examples)从模型失败的角度检验深度神经网络内部的特征表示.通过分析,发现深度神经网络学习到的特征表示与人类所理解的语义概念之间存在着不一致性.这使得理解和解释深度神经网络内部的特征变得十分困难.为了实现可解释的深度神经网络,使其中的神经元具有更加明确的语义内涵,本文提出了加入特征表示一致性损失的对抗训练方式.实验结果表明该训练方式可以使深度神经网络内部的特征表示与人类所理解的语义概念更加一致.
文献关键词:
深度神经网络;可解释性;对抗样本;视觉特征表示
中图分类号:
作者姓名:
董胤蓬;苏航;朱军
作者机构:
清华大学计算机科学与技术系 北京100084
文献出处:
引用格式:
[1]董胤蓬;苏航;朱军-.面向对抗样本的深度神经网络可解释性分析)[J].自动化学报,2022(01):75-86
A类:
terpretability
B类:
对抗样本,深度神经网络,可解释性分析,Deep,neural,networks,DNNs,多任务,In,当做,黑盒,图像分类,分类任务,Adversarial,examples,神经网络学习,不一致性,十分困难,语义内涵,一致性损失,对抗训练,训练方式,视觉特征表示
AB值:
0.357455
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。