首站-论文投稿智能助手
典型文献
基于统计极差和变异系数的特征抽取研究
文献摘要:
经典的文本频数DF从全局角度统计某个单词特征出现的文本数,而忽略了局部信息.文章针对传统DF文本特征抽取方法存在的不足,对DF方法进行了改进和优化,通过考虑单词特征的局部信息和全局信息,利用类别信息从局部统计单词在各个类上的分布,并结合分散性和变异性利用极差、变异系数和变形KL散度三种方式从全局角度度量单词重要性,提出了一种基于统计极差和变异系数的文本特征抽取方法.在英文文本数据集路透社Reuters-21578财经新闻和20Newsgroups新闻组以及中文文本数据集搜狗新闻语料库中进行了实验和测试,结果表明,该方法能够提升文本特征抽取的效果,与其他方法相比在多类别平衡文本数据集上更能显示其优越性.
文献关键词:
极差;变异系数;文本频数;特征抽取
作者姓名:
甄志龙;张居晓
作者机构:
通化师范学院 计算机学院,吉林 通化 134002;南京特殊教育师范学院 数学与信息科学学院,南京 210038
文献出处:
引用格式:
[1]甄志龙;张居晓-.基于统计极差和变异系数的特征抽取研究)[J].统计与决策,2022(23):43-47
A类:
文本频数,20Newsgroups
B类:
极差,特征抽取,DF,全局角度,某个,单词,词特征,局部信息,文本特征,全局信息,类别信息,分散性,变异性,KL,散度,度度,文本数据,路透社,Reuters,财经新闻,新闻组,中文文本,搜狗,新闻语料库,其他方法,多类别
AB值:
0.358681
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。