基于LDA和BiGRU的文本分类|冼广铭;王鲁栋;曾碧卿;梅灏洋;陶睿 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

典型文献

基于LDA和BiGRU的文本分类

文献摘要：

文本分类是自然语言处理的基础任务,文本中的特征稀疏性和提取特征所用的神经网络影响后续的分类效果.针对文本中的特征信息不足以及传统模型上下文依赖关系方面不足的问题,提出经过TF-IDF加权的词向量和LDA主题模型相融合,利用双向门控循环神经网络层(BiGRU)充分提取文本深度信息特征的分类方法.该方法主要使用的数据集是天池比赛新闻文本分类数据集,首先用Word2vec和LDA模型分别在语料库中训练词向量,Word2vec经过TF-IDF进行加权所得的词向量再与LDA训练的经过最大主题概率扩展的词向量进行简单拼接,拼接后得到文本矩阵,将文本矩阵输入到BiGRU神经网络中,分别从前后两个反方向提取文本深层次信息的特征向量,最后使用softmax函数进行多分类,根据输出的概率判断所属的类别.与现有的常用文本分类模型相比,准确率、F1值等评价指标都有了较高的提升.

文献关键词：

LDA主题模型;BiGRU;Word2vec;深度学习;文本分类

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391） / 文字信息处理（TP391.1）

[2] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18） / 人工神经网络与计算（TP183）

[3] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18）

作者姓名：

冼广铭;王鲁栋;曾碧卿;梅灏洋;陶睿

作者机构：

华南师范大学软件学院,广东佛山 528225

文献出处：

计算机技术与发展

引用格式：

[1]冼广铭;王鲁栋;曾碧卿;梅灏洋;陶睿-.基于LDA和BiGRU的文本分类)[J].计算机技术与发展,2022(04):15-20

A类：

B类：

LDA,BiGRU,自然语言处理,特征稀疏,稀疏性,提取特征,网络影响,分类效果,特征信息,传统模型,上下文依赖,依赖关系,出经,TF,IDF,词向量,主题模型,双向门控循环神经网络,网络层,分提,文本深度,深度信息,信息特征,分类方法,天池,新闻文本分类,分类数据,先用,Word2vec,语料库,大主题,拼接,从前,反方,特征向量,softmax,多分类,分类模型

AB值：

0.40772

相似文献

改进词向量和kNN的中文文本分类算法

丁正生;马春洁-西安科技大学,陕西西安 710600

改进卷积神经网络的文本主题识别算法研究

邱宁佳;杨长庚;王鹏;任涛-长春理工大学计算机科学技术学院,长春 130022

融合BTM和BERT的短文本分类方法

付文杰;杨迪;马红明;吴迪-国网河北省电力有限公司营销服务中心,河北石家庄 050000;河北工程大学信息与电气工程学院,河北邯郸 056038

融合BERT词嵌入和注意力机制的中文文本分类

孙红;陈强越-上海理工大学光电信息与计算机工程学院,上海200093

融合字根信息的卷积神经网络中文分词方法