首站-论文投稿智能助手
典型文献
Spark平台下基于加权词向量的文本分类方法
文献摘要:
针对Spark平台下文本分类中文本表示方法不够完善,导致分类准确率低的问题,结合Spark ML下的TF-IDF算法和Word2vec模型,提出一种基于Spark ML的加权词向量文本表示方法.首先对文本进行分词,去停用词等预处理,基于Spark ML计算出每个词语的词频和逆文档频率,同时计算词语的词向量.使用词语的TF-IDF值作为词向量的权重,将文本表示为加权词向量,再使用SVM分类器进行分类.在THUNews数据集上进行实验.实验结果表明,该方法相比于传统的TF-IDF算法、平均Word2Vec词向量文本表示,可以提升分类的精度.
文献关键词:
Spark;文本分类;TF-IDF(term frequency-inverse document frequency);Word2Vec;支持向量机;文本表示
作者姓名:
蔡宇翔;王佳斌;郑天华
作者机构:
华侨大学工学院,泉州 362021
文献出处:
引用格式:
[1]蔡宇翔;王佳斌;郑天华-.Spark平台下基于加权词向量的文本分类方法)[J].现代计算机,2022(03):25-30
A类:
THUNews
B类:
Spark,台下,词向量,文本分类方法,文本表示,表示方法,分类准确率,ML,TF,IDF,Word2vec,分词,停用,用词,词语,词频,文档,时计,分类器,Word2Vec,term,frequency,inverse,document
AB值:
0.289193
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。