语言模型攻击性的自动评价方法|侯丹阳;庞亮;丁汉星;兰艳艳;程学旗|中国科学院大学,北京100049 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

语言模型攻击性的自动评价方法

文献摘要：

基于大规模语料训练的语言模型,在文本生成任务上取得了突出性能表现.然而研究发现,这类语言模型在受到扰动时可能会产生攻击性的文本.这种不确定的攻击性给语言模型的研究和实际使用带来了困难,为了避免风险,研究人员不得不选择不公开论文的语言模型.因此,如何自动评价语言模型的攻击性成为一项亟待解决的问题.针对该问题,该文提出了一种语言模型攻击性的自动评估方法.它分为诱导和评估两个阶段.在诱导阶段,基于即插即用可控文本生成技术,利用训练好的文本分类模型提供的梯度方向更新语言模型的激活层参数,增加生成的文本具有攻击性的可能性.在评估阶段,利用训练好的文本分类模型的判别能力,估计诱导产生的攻击性文本的占比,用以评估语言模型的攻击性.实验评估了不同设置下的预训练模型的攻击性水平,结果表明该方法能够自动且有效地评估语言模型的攻击性,并进一步分析了语言模型的攻击性与模型参数规模、训练语料以及前置单词之间的关系.

文献关键词：

文本生成;语言模型;自动评价

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391）

[2] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391） / 文字信息处理（TP391.1）

[3] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 一般性问题（TP30） / 安全保密（TP309）

作者姓名：

侯丹阳;庞亮;丁汉星;兰艳艳;程学旗

作者机构：

中国科学院计算技术研究所数据智能系统研究中心,北京100190;中国科学院大学,北京100049;中国科学院计算技术研究所中国科学院网络数据科学与技术重点实验室,北京100190

文献出处：

中文信息学报

引用格式：

[1]侯丹阳;庞亮;丁汉星;兰艳艳;程学旗-.语言模型攻击性的自动评价方法)[J].中文信息学报,2022(01):12-20

A类：

B类：

语言模型,模型攻击,攻击性,自动评价,语料,文本生成,不公,评价语言,自动评估,即插即用,生成技术,练好,文本分类,分类模型,梯度方向,新语言,加生,实验评估,预训练模型,单词

AB值：

0.25619

相似文献

关于短文本匹配的泛化性和迁移性的研究分析

马新宇;范意兴;郭嘉丰;张儒清;苏立新;程学旗-中国科学院网络数据科学与技术重点实验室(中国科学院计算技术研究所) 北京100190;中国科学院大学北京 100049

基于语句融合和自监督训练的文本摘要生成模型

邹傲;郝文宁;靳大尉;陈刚-陆军工程大学指挥控制工程学院南京210007

多尺度梯度对抗样本生成网络

石磊;张晓涵;洪晓鹏;李吉亮;丁文杰;沈超-西安交通大学网络空间安全学院西安710049;哈尔滨工业大学计算学部哈尔滨150001;北京旷视科技有限公司北京100080

基于MPNet预训练和多头注意力特征融合的引文意图分类方法

祁瑞华;邵震;关菁华;郭旭-大连外国语大学语言智能研究中心大连116044;大连外国语大学软件学院大连116044

基于MFFMB的电商评论文本分类研究

谢星雨;余本功-合肥工业大学管理学院合肥 230009;过程优化与智能决策教育部重点实验室合肥 230009

融合注意力机制与句向量压缩的长文本分类模型

叶瀚;孙海春;李欣;焦凯楠-中国人民公安大字信息网络安全学院北京102627

基于领域ERNIE和BiLSTM模型的酒店评论观点原因分类研究

张治鹏;毛煜升;张李义-武汉大学信息管理学院武汉430072

BERT辅助金融领域人物关系图谱构建

张纯鹏;辜希武;李瑞轩;李玉华;刘伟-华中科技大学计算机科学与技术学院,武汉 430074

深度学习的表格到文本生成研究综述

胡康;奚雪峰;崔志明;周悦尧;仇亚进-苏州科技大学电子与信息工程学院,江苏苏州 215000;苏州市虚拟现实智能交互及应用重点实验室,江苏苏州 215000;苏州智慧城市研究院,江苏苏州 215000

结合BERT和特征投影网络的新闻主题文本分类方法

张海丰;曾诚;潘列;郝儒松;温超东;何鹏-湖北大学计算机与信息工程学院,武汉430062;湖北省软件工程工程技术研究中心,武汉430062;智慧政务与人工智能应用湖北省工程研究中心,武汉430062

融合后验概率校准训练的文本分类算法

江静;陈渝;孙界平;琚生根-四川大学计算机学院,成都610065;四川民族学院理工学院,四川康定626001

基于多语BERT的无监督攻击性言论检测

师夏阳;张风远;袁嘉琪;黄敏-郑州轻工业大学软件学院,郑州 450001;郑州轻工业大学数学与信息科学学院,郑州 450001

面向语音识别系统的对抗样本攻击及防御综述

陈佳豪;白炳松;王冬华;严迪群;王让定-宁波大学信息科学与工程学院,浙江宁波315211

基于用户意图的微博文本生成技术研究

高永兵;黎预璇;高军甜;马占飞-内蒙古科技大学信息工程学院,内蒙古包头 014010;包头师范学院信息工程系,内蒙古包头 014010

基于预训练语言模型的关键词感知问题生成

于尊瑞;毛震东;王泉;张勇东-中国科学技术大学信息科学技术学院,合肥 230000;北京百度网讯科技有限公司,北京 100000

AMR文本生成的数据扩充方法

付叶蔷;李军辉-苏州大学计算机科学与技术学院,江苏苏州 215006

一种基于BERT和池化操作的文本分类模型

张军;邱龙龙-东华理工大学软件学院,江西南昌330013;东华理工大学信息工程学院,江西南昌330013

文本摘要模型的研究进展

张紫芸;王文发;马乐荣;丁苍峰-延安大学数学与计算机科学学院,陕西延安716000

自然语言处理新范式:基于预训练模型的方法

车万翔;刘挺-哈尔滨工业大学,中国哈尔滨150001

基于ALBERT-UniLM模型的文本自动摘要技术研究

孙宝山;谭浩-天津工业大学计算机科学与技术学院,天津 300387;天津市自主智能技术与系统重点实验室,天津 300387

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。