预训练语言模型的可解释性研究进展|郝雅茹;董力;许可;李先贤|北京航空航天大学计算机学院,北京100083 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

FAILED

首站-论文投稿智能助手

中图分类号

典型文献

预训练语言模型的可解释性研究进展

文献摘要：

基于深度神经网络的大型预训练语言模型在众多自然语言处理任务上都取得了巨大的成功,如文本分类、阅读理解、机器翻译等,目前已经广泛应用于工业界.然而,这些模型的可解释性普遍较差,即难以理解为何特定的模型结构和预训练方式如此有效,亦无法解释模型做出决策的内在机制,这给人工智能模型的通用化带来不确定性和不可控性.因此,设计合理的方法来解释模型至关重要,它不仅有助于分析模型的行为,也可以指导研究者更好地改进模型.本文介绍近年来有关大型预训练语言模型可解释性的研究现状,对相关文献进行综述,并分析现有方法的不足和未来可能的发展方向.

文献关键词：

语言模型;预训练;可解释性;自然语言处理;神经网络

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391） / 文字信息处理（TP391.1）

[2] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18）

[3] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391）

作者姓名：

郝雅茹;董力;许可;李先贤

作者机构：

微软亚洲研究院,北京100191;北京航空航天大学计算机学院,北京100083;广西多源信息挖掘与安全重点实验室(广西师范大学),广西桂林541004

文献出处：

广西师范大学学报（自然科学版）

引用格式：

[1]郝雅茹;董力;许可;李先贤-.预训练语言模型的可解释性研究进展)[J].广西师范大学学报（自然科学版）,2022(05):59-71

A类：

B类：

预训练语言模型,可解释性研究,深度神经网络,自然语言处理,文本分类,阅读理解,机器翻译,工业界,模型结构,训练方式,无法解释,解释模型,内在机制,人工智能模型,通用化,可控性,指导研究,改进模型,模型可解释性,未来可能

AB值：

0.310526

相似文献

卷积神经网络表征可视化研究综述

司念文;张文林;屈丹;罗向阳;常禾雨;牛铜-信息工程大学信息系统工程学院郑州450001;信息工程大学网络空间安全学院郑州450001;信息工程大学密码工程学院郑州450001

面向机器学习模型安全的测试与修复

张笑宇;沈超;蔺琛皓;李前;王骞;李琦;管晓宏-西安交通大学电子与信息学部网络空间安全学院,陕西西安 710049;智能网络与网络安全教育部重点实验室(西安交通大学),陕西西安 710049;武汉大学国家网络安全学院,湖北武汉 430072;清华大学网络科学与网络空间研究院,北京 100084;中关村实验室,北京 100094

知识堆叠降噪自编码器

刘国梁;余建波-同济大学机械与能源工程学院上海201804

基于语句融合和自监督训练的文本摘要生成模型

邹傲;郝文宁;靳大尉;陈刚-陆军工程大学指挥控制工程学院南京210007

基于BERT的三阶段式问答模型

彭宇;李晓瑜;胡世杰;刘晓磊;钱伟中-电子科技大学信息与软件工程学院,成都610054

深度学习的可解释性研究综述

李凌敏;侯梦然;陈琨;刘军民-西安交通大学数学与统计学院,西安 710049

任务型对话系统中的自然语言生成研究进展综述

覃立波;黎州扬;娄杰铭;禹棋赢;车万翔-哈尔滨工业大学计算学部,黑龙江哈尔滨150001

基于两段高速网络的命名实体识别

陈淳;李明扬;孔芳-苏州大学计算机科学与技术学院,江苏苏州 215006

面向问题生成的预训练模型适应性优化方法研究

苏玉兰;洪宇;朱鸿雨;武恺莉;张民-苏州大学计算机科学与技术学院,江苏苏州 215006

基于强化学习的对抗预训练语言建模方法

颜俊琦;孙水发;吴义熔;裴伟;董方敏-三峡大学智慧医疗宜昌市重点实验室,湖北宜昌 443002;三峡大学计算机与信息学院,湖北宜昌 443002

DistillBIGRU:基于知识蒸馏的文本分类模型

黄友文;魏国庆;胡燕芳-江西理工大学信息工程学院,江西赣州 341000

基于抽象事理图谱的因果简答题求解方法

陈越;何宇豪;孙亚伟;程龚;瞿裕忠-南京大学计算机软件新技术国家重点实验室,江苏南京 210023

裁判文书诉辩双方互动论点对识别方法研究

张虎;季泽;王宇杰;李茹-山西大学计算机与信息技术学院,山西太原030006;山西大学计算智能与中文信息处理教育部重点实验室,山西太原030006

面向问题复述识别的定向数据增强方法

朱鸿雨;金志凌;洪宇;苏玉兰;张民-苏州大学计算机科学与技术学院,江苏苏州 215006

多跳式文本阅读理解方法综述

倪艺函;兰艳艳;庞亮;程学旗-中国科学院计算技术研究所中国科学院网络数据科学与技术重点实验室,北京 100190;中国科学院大学计算机与控制学院,北京 100049;清华大学智能产业研究院,北京 100084

面向文本推理的知识增强预训练语言模型

熊凯;杜理;丁效;刘挺;秦兵;付博-哈尔滨工业大学社会计算与信息检索研究中心,黑龙江哈尔滨150006;建信金融科技有限责任公司基础技术中心,北京 100032

基于预训练语言模型的藏文文本分类

安波;龙从军-中国社会科学院民族学与人类学研究所,北京100081

知识图谱构建技术综述

张吉祥;张祥森;武长旭;赵增顺-山东科技大学电子信息工程学院,山东青岛 266590

基于ALBERT-BGRU-CRF的中文命名实体识别方法

李军怀;陈苗苗;王怀军;崔颖安;张爱华-西安理工大学计算机科学与工程学院,西安 710048;中铝萨帕特种铝材(重庆)有限公司,重庆 401326

基于实体信息和图神经网络的药物相互作用关系抽取

杨霞;韩春燕;琚生根-四川大学计算机学院,成都610065;四川民族学院理工学院,康定626001

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。