典型文献
基于迭代训练的古文短文本聚类方法研究
文献摘要:
传统短文本聚类存在特征关键词稀疏、特征维度高,且忽略文本语义等特点,基于古文《四库全书》和《太平御览》抽取的短文本词条数据集,提出了一种基于BERT+K-means+迭代训练的融合模型对短文本数据集进行聚类研究.使用BERT预训练模型来获取词条短文本的向量表示,将该向量表示作为K-means算法的输入得到初始聚簇结果,利用离群值检测算法将聚簇结果划分为离群值和非离群值集合,使用非离群值训练出的分类器对离群值进行再次划分,迭代进行,直至达到停止标准.将BERT词向量模型与TF-IDF以及Word2vec词向量模型进行对比实验,对比结果证明BERT预训练模型相较TF-IDF和Word2vec两种词向量表示效果有显著的提升,实验还证明了迭代训练对于本文古文短文本数据集的有效性.
文献关键词:
古文;短文本聚类;BERT模型;K-Means聚类;迭代训练
中图分类号:
作者姓名:
李晓璐;赵庆聪;齐林
作者机构:
北京信息科技大学信息管理学院,北京 100192;绿色发展大数据决策北京市重点实验室,北京 100192;北京信息科技大学经济管理学院,北京 100192;北京世界城市循环经济体系(产业)协同创新中心,北京 100192
文献出处:
引用格式:
[1]李晓璐;赵庆聪;齐林-.基于迭代训练的古文短文本聚类方法研究)[J].现代计算机,2022(02):37-43
A类:
BERT+K,means+
B类:
迭代训练,古文,短文本聚类,聚类方法,类存在,存在特征,文本语义,四库全书,太平御览,词条,条数据,融合模型,文本数据,聚类研究,预训练模型,取词,向量表示,聚簇,离群值检测,检测算法,练出,分类器,词向量,TF,IDF,Word2vec,Means
AB值:
0.258754
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。