基于预训练模型和多层次信息的代码坏味检测方法|张杨;东春浩;刘辉;葛楚妍|北京理工大学计算机学院, 北京100081 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

基于预训练模型和多层次信息的代码坏味检测方法

文献摘要：

目前已有的代码坏味检测方法仅依赖于代码结构信息和启发式规则, 对嵌入在不同层次代码中的语义信息关注不够, 而且现有的代码坏味检测方法准确率还有进一步提升的空间. 针对该问题, 提出一种基于预训练模型和多层次信息的代码坏味检测方法DeepSmell, 首先采用静态分析工具提取程序中的代码坏味实例和多层次代码度量信息, 并对代码坏味实例进行标记; 然后通过抽象语法树解析并获取源代码中与代码坏味相关的层次信息, 将其中的文本信息与度量信息相结合生成数据样本; 最后使用BERT预训练模型将文本信息转化为词向量, 应用GRU-LSTM模型获取层次信息之间潜在的语义关系, 并结合CNN模型与注意力机制检测代码坏味. 在实验中, 选取JUnit、Xalan和SPECjbb2005等24个大型实际应用程序构建训练集和测试集, 并对特征依恋、长方法、数据类和上帝类等4种代码坏味进行检测. 实验结果表明, DeepSmell与目前已有的检测方法相比在平均查全率和F1值上分别提高了9.3％和10.44％, 同时保持了较高的查准率, DeepSmell可以有效地实现代码坏味检测.

文献关键词：

代码坏味;深度学习;预训练模型;抽象语法树;多层次信息

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391） / 模式识别与装置（TP391.4）

[2] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机软件（TP31） / 程序设计、软件工程（TP311）

[3] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18） / 人工神经网络与计算（TP183）

作者姓名：

张杨;东春浩;刘辉;葛楚妍

作者机构：

河北科技大学信息科学与工程学院, 河北石家庄 050018;北京理工大学计算机学院, 北京100081

文献出处：

引用格式：

[1]张杨;东春浩;刘辉;葛楚妍-.基于预训练模型和多层次信息的代码坏味检测方法)[J].软件学报,2022(05):1551-1568

A类：

代码坏味,DeepSmell,JUnit,Xalan,SPECjbb2005,上帝类

B类：

预训练模型,多层次信息,结构信息,启发式规则,不同层次,语义信息,信息关注,静态分析,代码度量,抽象语法树,源代码,文本信息,BERT,词向量,GRU,语义关系,注意力机制,应用程序,程序构建,训练集,测试集,依恋,查全率,查准率

AB值：

0.221239

相似文献

BERT辅助金融领域人物关系图谱构建

张纯鹏;辜希武;李瑞轩;李玉华;刘伟-华中科技大学计算机科学与技术学院,武汉 430074

融合图嵌入和注意力机制的代码搜索

黄思远;赵宇海;梁燚铭-东北大学计算机科学与工程学院,沈阳 110169

机器学习在x86二进制反汇编中的应用研究综述

王鹃;王蕴茹;翁斌;龚家新-武汉大学国家网络安全学院,武汉 430072;武汉大学空天信息安全与可信计算教育部重点实验室,武汉 430072

基于局部图匹配的智能合约重入漏洞检测方法

张玉健;刘代富;童飞-东南大学网络空间安全学院,南京 211189;江苏省泛在网络安全工程研究中心,南京 211189

融合BERT与标签语义注意力的文本多标签分类方法

吕学强;彭郴;张乐;董志安;游新冬-网络文化与数字传播北京市重点实验室(北京信息科技大学),北京100101

基于深度学习的耦合度相关代码坏味检测方法

苏珊;张杨;张冬雯-河北科技大学信息科学与工程学院,石家庄050018

基于注意力机制和残差网络的恶意代码检测方法

张杨;郝江波-河北科技大学信息科学与工程学院,石家庄050018

基于双层词性感知和多头交互注意机制的方面级情感分析

薛芳;过弋;李智强;王家辉-华东理工大学信息科学与工程学院,上海200237;大数据流通与交易技术国家工程实验室—商业智能与可视化技术研究中心,上海200436;上海大数据与互联网受众工程技术研究中心,上海200072

融入情感和话题信息的中文方面级情感分析

周法国;孙冬雪-中国矿业大学(北京)机电与信息工程学院,北京100083

增强语义表示的中文金融评价要素抽取

陈启;刘德喜;万常选;刘喜平;鲍力平-江西财经大学信息管理学院,南昌330032

基于图注意力网络的方面级别文本情感分析

施荣华;金鑫;胡超-中南大学计算机学院,长沙 410083;中南大学大数据研究院,长沙 410083

ELMo-CNN-BiGRU双通道文本情感分类模型

吴迪;王梓宇;赵伟超-河北工程大学信息与电气工程学院,河北邯郸056038

基于混合注意力机制的中文机器阅读理解

刘高军;李亚欣;段建勇-北方工业大学信息学院,北京 100144;北方工业大学CNONIX国家标准应用与推广实验室,北京 100144

基于抽象语法树压缩编码的漏洞检测方法

陈传涛;潘丽敏;龚俊;马勇;罗森林-北京理工大学信息系统及安全对抗实验中心北京100081

多神经网络协作的电力文本类型识别

陈鹏;吴旻荣;蔡冰;何晓勇;金兆轩;金志刚;侯瑞-国网宁夏电力有限公司,银川750001;天津大学电气自动化与信息工程学院,天津300072;华北电力大学苏州研究院,苏州215123;华北电力大学经济与管理学院,北京102206

基于Token语义构建的代码克隆检测

王文杰;徐云-中国科学技术大学计算机科学与技术学院,合肥230027;中国科学技术大学高性能计算安徽省重点实验室,合肥230027

基于程序结构与语义特征融合的软件缺陷预测

董玉坤;李浩杰;位欣欣;唐道龙-中国石油大学(华东)计算机科学与技术学院,山东青岛 266580

RoBERTa融合BiLSTM及注意力机制的隐式情感分析

张军;张丽;沈凡凡;谭海;何炎祥-东华理工大学信息工程学院,南昌 330013;东华理工大学江西省放射性地学大数据技术工程实验室,南昌 330013;南京审计大学计算机学院,南京 211815;武汉大学计算机学院,武汉 430072

结合BERT与多尺度CNN的民事纠纷问句意图分类

邢义男;张娜娜-上海海洋大学信息学院,上海 201306;上海建桥学院信息技术学院,上海 201306

基于多关系结构图神经网络的代码漏洞检测

潘禺涵;舒远仲;洪晟;罗斌;聂云峰-南昌航空大学信息工程学院,江西南昌 330000;北京航空航天大学网络安全空间学院,北京 100191

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。