典型文献
基于神经网络的复杂垃圾信息过滤算法分析
文献摘要:
垃圾信息的识别是自然语言处理方面主要的任务之一.传统方法是基于文本特征或词频的方法,其识别准确率主要依赖于特定关键词的出现与否,存在对关键词识别错误或对未出现关键词的垃圾信息文本识别能力较差的问题,提出基于神经网络的方法.首先,利用传统方法针对这一类垃圾信息文本进行识别训练和测试;然后,利用从垃圾短信、广告和垃圾邮件数据集中挑选出传统方法识别困难的垃圾信息,再从原数据集中随机挑选出同样数量的正常信息,将其组成三个无重复数据的新数据集;最后,以卷积神经网络和循环神经网络为基础,建立了三个模型,并在新数据集上进行识别训练.实验结果表明,基于神经网络的方法可以从文本中学习到更好的语义特征,在三个数据集上均能达到98%以上的准确率,高于朴素贝叶斯(NB)、随机森林(RF)、支持向量机(SVM)等传统方法.实验结果还显示,不同的神经网络适用于不同长度的文本分类,由循环神经网络组成的模型擅长识别句子长度的文本,由卷积神经网络组成的模型擅长识别段落长度的文本,由两者共同组成的模型擅长识别篇章长度的文本.
文献关键词:
垃圾信息;识别与过滤;文本特征;词频;神经网络
中图分类号:
作者姓名:
张建;严珂;马祥
作者机构:
中国计量大学信息工程学院,杭州310018
文献出处:
引用格式:
[1]张建;严珂;马祥-.基于神经网络的复杂垃圾信息过滤算法分析)[J].计算机应用,2022(03):770-777
A类:
B类:
垃圾信息,信息过滤,过滤算法,算法分析,自然语言处理,文本特征,词频,识别准确率,关键词识别,文本识别,识别能力,垃圾短信,广告,垃圾邮件,件数,挑选出,方法识别,重复数据,新数据,循环神经网络,语义特征,朴素贝叶斯,NB,RF,同长,文本分类,擅长,别句,句子,子长,段落,识别与过滤
AB值:
0.344439
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。