基于Token语义构建的代码克隆检测|王文杰;徐云|中国科学技术大学高性能计算安徽省重点实验室,合肥230027 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

基于Token语义构建的代码克隆检测

文献摘要：

传统的基于Token的克隆检测方法利用代码字符串的序列化特性,可以在大型代码仓中快速检测克隆.但是与基于抽象语法树(AST)、程序依赖图(PDG)的方法相比,由于缺少语法及语义信息,针对文本有较大差异的克隆代码检测困难.为此,提出一种赋予语义信息的Token克隆检测方法.首先,分析抽象语法树,使用AST路径抽象位于叶子节点的Token的语义信息;然后,在函数名和类型名角色的Token上建立低成本索引,达到快速并有效地筛选候选克隆片段的目的.最后,使用赋予语义信息的Token判定代码块之间的相似性.在公开的大规模数据集BigCloneBench实验结果表明,该方法在文本相似度较低的Moderately Type-3和Weakly Type-3/Type-4类型克隆上显著优于主流方法,包括NiCad、Deckard、CCAligner等,同时在大型代码仓上需要更少的检测时间.

文献关键词：

代码克隆检测;抽象语法树;语义信息;高效索引;源代码

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机软件（TP31） / 程序设计、软件工程（TP311）

[2] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391）

[3] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391） / 文字信息处理（TP391.1）

作者姓名：

王文杰;徐云

作者机构：

中国科学技术大学计算机科学与技术学院,合肥230027;中国科学技术大学高性能计算安徽省重点实验室,合肥230027

文献出处：

计算机系统应用

引用格式：

[1]王文杰;徐云-.基于Token语义构建的代码克隆检测)[J].计算机系统应用,2022(11):60-67

A类：

BigCloneBench,Moderately,NiCad,Deckard,CCAligner

B类：

Token,代码克隆检测,法利,码字,字符串,序列化,快速检测,抽象语法树,AST,程序依赖图,PDG,语义信息,本有,叶子,数名,名角,大规模数据集,文本相似度,Type,Weakly,主流方法,检测时间,高效索引,源代码

AB值：

0.286689

相似文献

融合图嵌入和注意力机制的代码搜索

黄思远;赵宇海;梁燚铭-东北大学计算机科学与工程学院,沈阳 110169

基于深度学习的代码表征及其应用综述

张祥平;刘建勋-湖南科技大学服务计算与软件服务新技术湖南省重点实验室,湖南湘潭 411201;湖南科技大学计算机科学与工程学院,湖南湘潭 411201

二进制代码相似性搜索研究进展

夏冰;庞建民;周鑫;单征-数学工程与先进计算国家重点实验室,郑州450001;中原工学院前沿信息技术研究院,郑州450007

基于深度特征融合的无纺布低对比度浆丝缺陷检测方法

鲁永帅;唐英杰;马鑫然-北京印刷学院信息工程学院,北京102600

深度非对称离散跨模态哈希方法

王晓雨;王展青;熊威-武汉理工大学理学院,武汉430070

结合多头注意力机制的旅游问句分类研究

吴迪;姜丽婷;王路路;吐尔根·依布拉音;艾山·吾买尔;早克热·卡德尔-新疆大学软件学院,乌鲁木齐 830046;新疆大学信息科学与工程学院,乌鲁木齐 830046

基于句法分析及主题分布的关键词抽取模型

王昊;刘丹;刘硕-电子科技大学电子科学技术研究院,成都611731

基于程序向量树和聚类的学生程序算法识别方法

魏敏;张丽萍;闫盛-内蒙古师范大学计算机科学技术学院,内蒙古呼和浩特 010022

基于空间和多层级联合编码的图像描述算法

方仲俊;张静;李冬冬-华东理工大学信息科学与工程学院上海200237;苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215031

面向基本路径学习的代码自动命名

王一凡;赵逢禹;艾均-上海理工大学光电信息与计算机工程学院,上海200093

基于改进注意力机制的问题生成模型研究

易也难;卞艺杰-河海大学商学院,江苏南京211100

基于真实数据感知的模型功能窃取攻击

李延铭;李长升;余佳奇;袁野;王国仁-北京理工大学计算机学院,北京 100081

基于隔级交叉特征融合的输电线螺栓缺销检测

赵文清;徐敏夫-华北电力大学控制与计算机工程学院,保定 071003;复杂能源系统智能计算教育部工程研究中心,保定 071003

面向PMVS算法的自动两级并行翻译方法

刘金硕;黄朔;邓娟-武汉大学国家网络安全学院空天信息安全与可信计算教育部重点实验室,武汉 430072;武汉大学计算机学院,武汉 430072

基于自裁剪异构图的NL2SQL模型

黄君扬;王振宇;梁家卿;肖仰华-复旦大学软件学院,上海 200433;信息系统工程重点实验室,南京 210007

融合用户历史传播信息的微博谣言检测

卢悦;曹春萍-上海理工大学光电信息与计算机工程学院,上海200093

基于程序结构与语义特征融合的软件缺陷预测

董玉坤;李浩杰;位欣欣;唐道龙-中国石油大学(华东)计算机科学与技术学院,山东青岛 266580

语义及句法特征多注意力交互的医疗自动问答

张华丽;康晓东;李小军;刘汉卿;王笑天-天津医科大学医学影像学院,天津 300203;重庆市黔江中心医院,重庆 409099

融合细粒度实体类型的多特征关系分类算法

左亚尧;易彪;黎文杰-广东工业大学计算机学院,广州 510006

基于上下文特征融合的代码漏洞检测方法

徐泽鑫;段立娟;王文健;恩擎-北京工业大学信息学部,北京100124;可信计算北京市重点实验室,北京100124;信息安全等级保护关键技术国家工程实验室,北京100124;卡尔顿大学计算机学院,人工智能与机器学习实验室,加拿大渥太华K1S 5B6

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。