典型文献
文本分类中基于CHI和PCA混合特征的降维方法
文献摘要:
中文文本数据的半结构化甚至非结构化的特点使得其分类存在着特征高维的问题,传统单一的特征降维方法难以满足大数据时代的文本分类需求.基于此,提出了一种基于卡方统计(Chi-square statistics,CHI)和主成分分析(principal component analysis,PCA)的混合特征降维方法(CHI-PCA),该方法使用CHI方法初筛出类别相关的特征词,使用PCA方法对特征词空间进行二次降维,在特征降维的同时仍保留了原始特征空间最多的特征信息.通过与文档频率(document frequency,DF)、信息增益(information gain,IG)、CHI和PCA这4种传统特征降维方法的实验对比,结果表明,在不同特征维度下,所提方法在Softmax回归、支持向量机(support vector machines,SVM)分类以及KNN分类器下的整体分类效果均优于对比方法,F1宏平均值最高提升了2.7%,在每个类别上的分类性能也是可观的,这说明基于CHI-PCA的2阶段特征降维方法是可行的,在特征降维的同时,还提高了分类性能.
文献关键词:
中文文本分类;特征降维;混合特征降维方法(CHI-PCA);卡方统计(CHI)方法;主成分分析(PCA)
中图分类号:
作者姓名:
唐加山;段丹丹
作者机构:
南京邮电大学 理学院,南京210023
文献出处:
引用格式:
[1]唐加山;段丹丹-.文本分类中基于CHI和PCA混合特征的降维方法)[J].重庆邮电大学学报(自然科学版),2022(01):164-171
A类:
B类:
CHI,混合特征,降维方法,文本数据,非结构化,类存在,高维,特征降维,卡方统计,Chi,square,statistics,principal,component,analysis,初筛,特征词,特征空间,特征信息,文档,document,frequency,DF,信息增益,information,gain,IG,传统特征,实验对比,Softmax,support,vector,machines,KNN,分类器,整体分类,分类效果,比方,分类性能,阶段特征,中文文本分类
AB值:
0.382809
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。