典型文献
新闻话题识别中LDA最优主题数选取研究
文献摘要:
[目的]针对LDA模型中主题数目需指定的问题,提出一种面向新闻话题识别领域的融合语义与时序的自适应主题数目确定方法.[方法]将语义和时序作为两个视图对新闻数据进行提取,得到对应的特征向量;再利用Co-DPSC算法对两个视图进行协同训练,得到包含时序影响的语义特征矩阵;最后对矩阵降维处理后按行进行密度峰值聚类,其结果作为最优主题的个数.[结果]实验结果表明:考虑语义和时间因素确定最优主题数,查准率和F值分别提高了 35.09个百分点和15.39个百分点.[局限]对关键词集进行聚类,关键词的获取方法一定程度上影响了聚类的效果和运行时间.本文算法仅针对新闻数据,在其他类型数据上具有一定局限性.[结论]实验证明,本文方法将新闻数据的时效性和内容结合起来考量新闻的类别,能够在一定程度上提升最优主题数目选取的准确性.
文献关键词:
LDA模型;新闻话题;多视图聚类
中图分类号:
作者姓名:
杨洋;江开忠;原明君;惠岚昕
作者机构:
上海工程技术大学数理与统计学院 上海201620
文献出处:
引用格式:
[1]杨洋;江开忠;原明君;惠岚昕-.新闻话题识别中LDA最优主题数选取研究)[J].数据分析与知识发现,2022(11):72-78
A类:
B类:
新闻话题,话题识别,LDA,合语,确定方法,新闻数据,特征向量,Co,DPSC,协同训练,时序影响,语义特征,特征矩阵,矩阵降维,降维处理,密度峰值聚类,时间因素,查准率,百分点,词集,获取方法,运行时间,定局,多视图聚类
AB值:
0.3931
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。