典型文献
一种双向采样的恶意PDF文档检测方法
文献摘要:
随着信息化发展,PDF文档以其良好的特性,成为日常流行的数据交换文件格式,也成为APT攻击事件中常被利用的文件载体.现有的恶意PDF文档检测方法往往采用平衡样本数据集进行评估,但真实环境中恶意文档数量远少于良性文档,因此在样本分类不均衡情况下,提出KM-TBSMOTE双向采样法的恶意PDF文档检测方法.基于BSMOTE算法,利用生成的过渡样本合成新样本,给出TBSMOTE算法,提高负样本比例.利用K-Means算法进行良性PDF文档样本欠采样,结合TBSMOTE算法,使样本分类达到均衡状态.最后采用随机森林方法进行恶意性检测.实验表明,该方法在不均衡PDF样本集上检测效果良好,综合评价指标F1达98.98%,召回率98.91%,误检率0.026%.与传统BSMOTE过采样方法相比,评价指标F1提高1.39%,召回率提高1.96%,误检率降低0.048%.基于KM-TB-SMOTE双向采样的恶意PDF文档检测方法能够有效解决样本分类不均衡对分类模型的影响,提高检测效果,适用于现实环境中的PDF文档恶意性检测.
文献关键词:
恶意PDF;文档检测;APT攻击;不均衡数据;双向采样
中图分类号:
作者姓名:
李睿;杨淑群;张新宇
作者机构:
上海工程技术大学电子电气工程学院,上海201620
文献出处:
引用格式:
[1]李睿;杨淑群;张新宇-.一种双向采样的恶意PDF文档检测方法)[J].软件导刊,2022(05):67-72
A类:
双向采样,文档检测,恶意文档,TBSMOTE
B类:
PDF,信息化发展,常流,数据交换,交换文件,文件格式,APT,样本数据集,真实环境,衡情,KM,采样法,Means,欠采样,均衡状态,随机森林方法,样本集,检测效果,综合评价指标,召回率,误检率,过采样,采样方法,分类模型,高检,现实环境,不均衡数据
AB值:
0.23647
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。