典型文献
基于RoBERTa-WWM和HDBSCAN的文本聚类算法
文献摘要:
在大数据环境下,从海量的互联网数据中获取热点话题是研究当前互联网中民意民情的基础,其中文本聚类是得到热点话题最常用的方法之一,可以分为文本向量化表示和聚类2个步骤.然而在文本向量化表示任务中,传统的文本表示模型无法准确表示新闻、帖文等文本的上下文语境信息.在聚类任务中,最常使用的是K-Means算法和DBSCAN算法,但是它们对数据的聚类方式与实际中话题数据的分布不符,这使得现有的文本聚类算法在实际的互联网环境中应用效果很差.本文根据互联网中话题的数据分布情况,提出一种基于RoBERTa-WWM和HDBSCAN的文本聚类算法.首先利用预训练语言模型RoBERTa-WWM得到每一篇文本的文本向量,其次利用t-SNE算法对高维文本向量进行降维,最后利用基于层次的密度聚类算法的HDBSCAN算法对低维的文本向量进行聚类.实验结果表明提出的算法相较于现有的文本聚类算法,在含有噪声数据且分布不均衡的数据集上,聚类效果有很大的提升.
文献关键词:
文本聚类;预训练语言模型;可视化降维;密度聚类
中图分类号:
作者姓名:
刘锟;曾曦;邱梓珩;陈周国
作者机构:
中国电子科技集团公司第三十研究所,四川 成都 610000;深圳市网联安瑞网络科技有限公司,广东 深圳 518000
文献出处:
引用格式:
[1]刘锟;曾曦;邱梓珩;陈周国-.基于RoBERTa-WWM和HDBSCAN的文本聚类算法)[J].计算机与现代化,2022(03):48-52,63
A类:
可视化降维
B类:
RoBERTa,WWM,HDBSCAN,文本聚类,大数据环境下,互联网数据,热点话题,民意,民情,文本向量化,向量化表示,文本表示,表示模型,上下文语境,Means,互联网环境,数据分布,预训练语言模型,一篇,SNE,高维,维文,密度聚类算法,低维,噪声数据
AB值:
0.278084
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。