典型文献
融合Focal Loss的网络威胁情报实体抽取
文献摘要:
网络威胁情报(CTI)蕴含丰富的威胁行为知识,及时分析处理威胁情报能够促进网络攻防由被动防御向主动防御的转变.当前多数威胁情报以自然语言文本的形式存在,包含大量非结构化数据,需要利用实体抽取方法将其转换为结构化数据以便后续处理.然而,由于威胁情报中包含大量漏洞名称、恶意软件、APT组织等专业词汇,且实体分布极不平衡,导致通用领域的实体抽取方法应用于威胁情报时受到极大限制.为此,提出一种融合Focal Loss的实体抽取模型,通过引入平衡因子和调制系数改进交叉熵损失函数,平衡样本分布.此外,针对威胁情报结构复杂且来源广泛,包含大量专业词汇的问题,在模型中增加单词和字符特征,有效改善了威胁情报中的OOV问题.实验结果表明,相较于现有主流模型BiLSTM和BiLSTM-CRF,所提模型在F1分数上分别提高了7.07%和4.79%,验证了引入Focal Loss和字符特征的有效性.
文献关键词:
网络安全;威胁情报;实体抽取;样本不平衡
中图分类号:
作者姓名:
郭渊博;李勇飞;陈庆礼;方晨;胡阳阳
作者机构:
信息工程大学密码工程学院,河南 郑州 450001;加利福尼亚大学河滨分校,河滨 CA92521
文献出处:
引用格式:
[1]郭渊博;李勇飞;陈庆礼;方晨;胡阳阳-.融合Focal Loss的网络威胁情报实体抽取)[J].通信学报,2022(07):85-92
A类:
洞名
B类:
Focal,Loss,网络威胁情报,实体抽取,CTI,分析处理,进网,网络攻防,主动防御,报以,自然语言,非结构化数据,恶意软件,APT,专业词汇,极不,报时,取模,平衡因子,调制系数,交叉熵损失函数,样本分布,单词,字符,OOV,流模型,BiLSTM,CRF,样本不平衡
AB值:
0.32582
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。