首站-论文投稿智能助手
典型文献
稀疏数据下结合词向量的短文本分类模型研究
文献摘要:
针对短文本缺乏足够共现信息所产生的词与词之间弱连接,且难以获取主题词的情况,导致面向短文本分类工作需要人工标注大量的训练样本,以及产生特征稀疏和维度爆炸的问题,提出了一种基于注意力机制和标签图的单词共生短文本分类模型(WGA-BERT).首先利用预先训练好的BERT模型计算上下文感知的文本表示,并使用WN TM对每个单词的潜在单词组分布进行建模,以获取主题扩展特征向量;其次提出了一种标签图构造方法捕获主题词的结构和相关性;最后,提出了一种注意力机制建立主题词之间,以及主题词和文本之间的联系,解决了数据稀疏性和主题文本异构性的问题.实验结果表明,WGA-BERT模型对于新闻评论类的短文本分类,比传统的机器学习模型在分类精度上平均提高了3%.
文献关键词:
短文本分类;词嵌入;单词网络主题模型;注意力机制
作者姓名:
杨阳;刘恩博;顾春华;裴颂文
作者机构:
上海理工大学 光电信息与计算机工程学院,上海200082
文献出处:
引用格式:
[1]杨阳;刘恩博;顾春华;裴颂文-.稀疏数据下结合词向量的短文本分类模型研究)[J].计算机应用研究,2022(03):711-715,750
A类:
单词网络主题模型
B类:
稀疏数据,词向量,短文本分类,分类模型,弱连接,主题词,分类工作,训练样本,产生特征,特征稀疏,注意力机制,WGA,BERT,练好,上下文感知,文本表示,WN,TM,词组,扩展特征,特征向量,图构造,构造方法,机制建立,数据稀疏性,主题文本,异构性,新闻评论,机器学习模型,分类精度,词嵌入
AB值:
0.341338
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。