典型文献
基于特征降维的网络文本数据分析算法研究
文献摘要:
由于网络数据大规模增长而导致文本数据的高维稀疏性,使得在对高校学生网络舆情分析时带来了巨大挑战.为解决该问题,本文在传统文档频率、互信息和卡方检验基础上,提出融合三种特征降维算法优化方法.首先在互信息算法中加入文档频率因子,解决低频词缺陷问题.然后,在卡方检验算法中加入标准评分因子来解决负相关问题.最后计算平均值,融合三种算法优点,提出一种新的改进降维算法.仿真结果表明,该算法对文本数据进行处理后,情感分析的准确率得到了提高并保持在95%以上.召回率90%以上,F值保持在92%~94%之间.在此区间上高于其他改进算法且趋于稳定,说明该算法在处理海量文本数据时,能够有效提高微博文本数据分析的准确率和效率.
文献关键词:
特征降维;文本情感;特征选择;Hadoop
中图分类号:
作者姓名:
杨旭;沈俊鑫;王春佳;远俊红;李若娟
作者机构:
云南林业职业技术学院 云南 650225;昆明理工大学 云南 650031;云南师范大学 云南 650092
文献出处:
引用格式:
[1]杨旭;沈俊鑫;王春佳;远俊红;李若娟-.基于特征降维的网络文本数据分析算法研究)[J].网络安全技术与应用,2022(07):32-34
A类:
B类:
特征降维,网络文本,文本数据,算法研究,网络数据,规模增长,高维,稀疏性,高校学生,学生网络,网络舆情分析,文档,互信息,卡方检验,降维算法,算法优化,信息算法,频率因子,低频词,缺陷问题,验算,情感分析,召回率,改进算法,微博文本,文本情感,特征选择,Hadoop
AB值:
0.426781
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。