首站-论文投稿智能助手
典型文献
基于主题模型的文本分类算法性能比较
文献摘要:
文章利用LDA模型进行文本降维和特征提取,并将传统分类算法置于集成学习框架下进行训练,以探讨是否能提高单一分类算法的分类准确度,并获得较优的分类效果,使LDA模型能够发挥更高的性能和效果,从而为文本分类精度的提高服务.同时,以Web of Science为数据来源,依据其学科类别划分标准,建立涵盖6个主题的实验文本集,利用Weka作为实验工具,以平均F值作为评价指标,对比分析了朴素贝叶斯、逻辑回归、支持向量机、K近邻算法4种传统分类算法以及AdaBoost、Bagging、Random Subspace 3种集成学习算法的分类效果.从总体上看,通过"同质集成"集成后的文本分类准确率高于单个分类器的分类准确率;利用LDA模型进行文本降维和特征提取,将朴素贝叶斯作为基分类器,并利用Bagging进行集成训练,分类效果最优,实现了"全局最优".
文献关键词:
文本分类;集成学习;算法比较;F值;主题模型
作者姓名:
王万起;田中雨;董兰军
作者机构:
辽宁工程技术大学 辽宁阜新 123000;中国科学院大学 北京 100190
文献出处:
引用格式:
[1]王万起;田中雨;董兰军-.基于主题模型的文本分类算法性能比较)[J].高校图书馆工作,2022(02):41-46
A类:
B类:
主题模型,文本分类,算法性能,性能比较,LDA,传统分类算法,集成学习框架,分类效果,分类精度,数据来源,学科类别,类别划分,划分标准,Weka,实验工具,朴素贝叶斯,逻辑回归,近邻算法,AdaBoost,Bagging,Random,Subspace,集成学习算法,从总体上,分类准确率,基分类器,全局最优,算法比较
AB值:
0.388017
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。