典型文献
卡方统计中基于KL散度的高维文本数据特征筛选
文献摘要:
特征的高维性和数据的稀疏性问题会严重影响分类的准确性,卡方统计可以在保持分类精度不变的情况下,有效地对高维文本数据特征进行筛选.文章通过KL散度检验观测值与理论值的偏差程度,用KL散度度量特征与类别之间的相关性,改进了现有的最大或平均全局评价方法.采用KNN分类模型在标准数据集上进行实验的结果表明,所提方法在大幅度降低文本数据特征向量空间维数的同时,还能推动分类性能的提高.
文献关键词:
卡方统计;KL散度;高维文本数据;特征筛选
中图分类号:
作者姓名:
甄志龙;张居晓
作者机构:
通化师范学院 计算机学院,吉林 通化 134002;南京特殊教育师范学院 数学与信息科学学院,南京 210038
文献出处:
引用格式:
[1]甄志龙;张居晓-.卡方统计中基于KL散度的高维文本数据特征筛选)[J].统计与决策,2022(17):43-46
A类:
高维文本数据
B类:
卡方统计,KL,散度,数据特征筛选,高维性,稀疏性,分类精度,观测值,理论值,度度,KNN,分类模型,标准数据集,大幅度降低,特征向量空间,分类性能
AB值:
0.291617
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。