首站-论文投稿智能助手
典型文献
基于LDA和BiGRU的文本分类
文献摘要:
文本分类是自然语言处理的基础任务,文本中的特征稀疏性和提取特征所用的神经网络影响后续的分类效果.针对文本中的特征信息不足以及传统模型上下文依赖关系方面不足的问题,提出经过TF-IDF加权的词向量和LDA主题模型相融合,利用双向门控循环神经网络层(BiGRU)充分提取文本深度信息特征的分类方法.该方法主要使用的数据集是天池比赛新闻文本分类数据集,首先用Word2vec和LDA模型分别在语料库中训练词向量,Word2vec经过TF-IDF进行加权所得的词向量再与LDA训练的经过最大主题概率扩展的词向量进行简单拼接,拼接后得到文本矩阵,将文本矩阵输入到BiGRU神经网络中,分别从前后两个反方向提取文本深层次信息的特征向量,最后使用softmax函数进行多分类,根据输出的概率判断所属的类别.与现有的常用文本分类模型相比,准确率、F1值等评价指标都有了较高的提升.
文献关键词:
LDA主题模型;BiGRU;Word2vec;深度学习;文本分类
作者姓名:
冼广铭;王鲁栋;曾碧卿;梅灏洋;陶睿
作者机构:
华南师范大学 软件学院,广东 佛山 528225
引用格式:
[1]冼广铭;王鲁栋;曾碧卿;梅灏洋;陶睿-.基于LDA和BiGRU的文本分类)[J].计算机技术与发展,2022(04):15-20
A类:
B类:
LDA,BiGRU,自然语言处理,特征稀疏,稀疏性,提取特征,网络影响,分类效果,特征信息,传统模型,上下文依赖,依赖关系,出经,TF,IDF,词向量,主题模型,双向门控循环神经网络,网络层,分提,文本深度,深度信息,信息特征,分类方法,天池,新闻文本分类,分类数据,先用,Word2vec,语料库,大主题,拼接,从前,反方,特征向量,softmax,多分类,分类模型
AB值:
0.40772
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。