典型文献
改进词向量和kNN的中文文本分类算法
文献摘要:
为提高中文文本分类的效率和准确率,针对汉字象形字的特点和数据量剧增的大数据背景,建立基于深度学习的中文文本分类算法.首先根据汉字子字符(字形、偏旁、笔画等)象形字即形状自带含义的特点,建立基于子字符和上下文特征的双通道CBOW模型实现中文文本向量化;其次基于大数据的背景,针对传统的kNN算法分类速度慢的缺点,提出一种基于LSC聚类和多目标数据筛选的快速kNN分类算法;最后运用快速kNN算法对文本数据转化的特征词向量数据进行分类.实验结果表明,改进后的中文文本分类算法增加了算法的使用范围,能够更精确地处理中文文本数据,更快地处理大数据问题,在分类速率和效果上都有一定程度的提升.
文献关键词:
中文文本分类;文本向量化;快速kNN算法;词向量;双通道CBOW模型;特征向量;数据分类
中图分类号:
作者姓名:
丁正生;马春洁
作者机构:
西安科技大学,陕西 西安 710600
文献出处:
引用格式:
[1]丁正生;马春洁-.改进词向量和kNN的中文文本分类算法)[J].现代电子技术,2022(01):100-103
A类:
改进词向量
B类:
kNN,中文文本分类,分类算法,汉字,字象,象形字,数据量,大数据背景,字符,字形,偏旁,笔画,自带,上下文特征,双通道,CBOW,模型实现,文本向量化,算法分类,速度慢,LSC,数据筛选,文本数据,特征词,特征向量,数据分类
AB值:
0.268831
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。