首站-论文投稿智能助手
典型文献
融合BERT和自编码网络的短文本聚类研究
文献摘要:
短文本相比于长文本词汇的数量更少,提取其中的语义特征信息更加困难,利用传统的向量空间模型VSM(vector space model)向量化表示,容易得到高维稀疏的向量.词的稀疏表示缺少语义相关性,造成语义鸿沟,从而导致下游聚类任务中,准确率低下,容易受噪声干扰等问题.提出一种新的聚类模型BERT_AE_K-Means,利用预训练模型BERT(bidirectional encoder representations from transformers)作为文本表示的初始化方法,利用自动编码器AutoEncoder对文本表示向量进行自训练以提取高阶特征,将得到的特征提取器Encoder和聚类模型K-Means进行联合训练,同时优化特征提取模块和聚类模块,提高聚类模型的准确度和鲁棒性.所提出的模型在四个数据集上与Word2Vec_K-Means和STC2等6个模型相比,准确率和标准互信息都有所提高,在SearchSnippet数据集上的准确率达到82.28%,实验结果显示,所提方法有效地提高了短文本聚类的准确度.
文献关键词:
短文本聚类;自动编码器;自然语言处理;BERT
作者姓名:
朱良奇;黄勃;黄季涛;马莉媛;史志才
作者机构:
上海工程技术大学 电子电气工程学院,上海 201620;上海信息安全综合管理技术重点实验室,上海 200240
引用格式:
[1]朱良奇;黄勃;黄季涛;马莉媛;史志才-.融合BERT和自编码网络的短文本聚类研究)[J].计算机工程与应用,2022(02):145-152
A类:
SearchSnippet
B类:
BERT,自编码网络,短文本聚类,聚类研究,长文,语义特征,特征信息,向量空间模型,VSM,vector,space,model,向量化表示,易得,高维,稀疏表示,语义相关性,成语,语义鸿沟,噪声干扰,聚类模型,AE,Means,预训练模型,bidirectional,encoder,representations,from,transformers,文本表示,初始化方法,自动编码器,AutoEncoder,自训练,联合训练,同时优化,取模,Word2Vec,STC2,互信息,自然语言处理
AB值:
0.386388
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。