典型文献
基于类别主题词集的加权相似度短文本分类
文献摘要:
由于短文本存在特征稀疏的问题,在分类问题上效果不佳,该文充分利用词向量模型,在词层面提出一种基于类别主题词集的加权相似度的短文本分类算法.首先训练词向量模型,其次使用TF-IDF选择出最能代表各类别的主题词形成类别主题词集,将短文本的关键词与各类别主题词分别进行相似度计算,将类别主题词对主题的贡献度表示在权重中,选择相似度最高的结果作为该短文本的类别.实验结果表明,基于类别主题词集的加权相似度短文本分类方法在精确率上相较KNN算法、Logistic回归算法、决策树分类算法分别提高了2.9%、1.8%、10.2%;在召回率上分别提升了3.0%、1.7%、10.4%.但是类别主题词对类别的贡献度量化维度简单.基于主题词集的加权相似度短文本分类算法在词的层面解决了短文本分类中的特征不足的问题,提高了短文本分类的性能.
文献关键词:
Word2Vec;短文本分类;相似度;类别主题;加权
中图分类号:
作者姓名:
王小楠;黄卫东
作者机构:
南京邮电大学 管理学院,江苏 南京 210003
文献出处:
引用格式:
[1]王小楠;黄卫东-.基于类别主题词集的加权相似度短文本分类)[J].计算机技术与发展,2022(09):95-99
A类:
类别主题
B类:
主题词,词集,权相,短文本分类,存在特征,特征稀疏,分类问题,用词,词向量,TF,IDF,词形,相似度计算,贡献度,文本分类方法,精确率,KNN,回归算法,决策树分类算法,召回率,Word2Vec
AB值:
0.167348
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。