首站-论文投稿智能助手
典型文献
基于日志信息的不可重复构建原因分类
文献摘要:
可重复构建指在预定义的构建环境下重新创建二进制工件的能力.由于可重复构建具有保证软件构建环境安全和提高软件构建和分发效率的作用,许多开源软件存储库(如Debian)开展了软件可重复构建实践.然而,由于缺乏足够的判断信息和源文件的复杂多样,确定软件不可重复构建的原因仍是一项费时费力的工作.为此,研究了基于机器学习的软件不可重复构建原因的分类检测.研究了4种典型的不可重复构建原因,即时间戳、文件顺序、随机性和语言环境.利用word2vec产生的词向量对文本日志进行表示,然后配合logistic回归模型,对差异日志和构建日志合并的文本语料进行学习和训练,从而实现对不可重复构建原因的自动分类.对算法进行了实现,并在671个不可重复构建的Debian软件包上进行实验,实验结果表明,该方法达到了80.75% 的宏平均精度和86.07% 的宏平均召回率,优于其他常用的机器学习算法.此外,还分析了差异日志和构建日志的相关性和重要性,实验结果表明两者对不可重复构建原因的分类都非常重要,缺一不可.该方法为不可重复构建原因自动分类提供了可靠的研究依据.
文献关键词:
可重复构建;原因分类;差异日志;构建日志;机器学习
作者姓名:
马钊;刘东;任志磊;江贺
作者机构:
大连理工大学软件学院 辽宁 大连 116620
文献出处:
引用格式:
[1]马钊;刘东;任志磊;江贺-.基于日志信息的不可重复构建原因分类)[J].计算机科学,2022(12):109-117
A类:
可重复构建,Debian,差异日志,构建日志
B类:
日志信息,原因分类,预定,建环,新创建,二进制,工件,软件构建,环境安全,开源软件,储库,构建实践,源文件,费时费力,基于机器学习,分类检测,时间戳,随机性,语言环境,word2vec,词向量,本日,logistic,语料,自动分类,软件包,包上,召回率,机器学习算法,缺一不可
AB值:
0.260059
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。