首站-论文投稿智能助手
典型文献
多类别文本分类方法比较研究
文献摘要:
文本分类特别是多类别文本分类问题是非常重要的经典问题,在舆情监测、新闻推荐、在线评论情感分析等领域有着广泛的应用.目前,可用于多类别文本分类的算法很多,但每个算法都有其特定的假设和优缺点.为了帮助使用者或研究者更好地选择和改进分类方法,设计了多类别文本分类方法比较方案,综合考虑了文本特征表示方法和分类算法两个维度,对3种文本特征表示方法和5种分类算法进行组合,形成15种分类模型作为比较对象.基于所设计的比较流程,以从媒体阅读网站SKIP-GRAM爬取SKIP-GRAM的3000条不同类别的资讯文本为研究语料,对15种模型在不同数据规模下进行若干次比较后,以Kappa系数和运行时间作为评估指标.综合评估后认为:使用词嵌入进行文本特征表示无论在分类模型的运行速度上还是分类效果上都具有明显的优势,KNN+CBOW、SVM+CBOW、朴素贝叶斯+CBOW都是解决多类别文本分类问题较佳的模型.
文献关键词:
文本分类;多类别;机器学习;文本特征表示;分类算法
作者姓名:
于卫红
作者机构:
大连海事大学 航运经济与管理学院,辽宁 大连 116026
引用格式:
[1]于卫红-.多类别文本分类方法比较研究)[J].计算机技术与发展,2022(01):54-60
A类:
GRAM,KNN+CBOW,SVM+CBOW,+CBOW
B类:
多类别,文本分类方法,方法比较,分类问题,经典问题,舆情监测,新闻推荐,在线评论,情感分析,文本特征表示,表示方法,分类算法,分类模型,阅读网,SKIP,爬取,资讯,语料,若干次,较后,Kappa,运行时间,用词,词嵌入,运行速度,分类效果,朴素贝叶斯,较佳
AB值:
0.266371
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。