首站-论文投稿智能助手
典型文献
基于种子约束LDA的产品属性提取方法
文献摘要:
为了从评论中分类提取产品属性,使得评论能够按照不同产品属性分别进行展示,提高消费者作出购买决策的效率,文中提出了基于种子约束LDA(隐含Dirichlet分布)的产品属性提取方法.该方法首先利用词频-逆文档频度(TF-IDF)算法自动提取关键词,作为属性种子集;接着对文档进行初次重组和二次重组,使二次重组后的文档只对一个产品属性进行描述,以解决长文本多属性类共现问题和短文本稀疏性问题,提高文档重组率;然后应用must-link和cannot-link两种种子约束定义概率扩缩值,通过对吉布斯采样过程的约束来影响LDA的主题分配,使得训练结果更加合理;最后将种子约束LDA生成的主题映射到先验属性类别上.定性分析(属性类别、属性词)和定量分析(准确率、熵值、纯度)结果表明,文中方法的准确率和纯度均高于现有的比较方法,而熵值低于现有的比较方法,说明了文中方法具有更好的聚类效果.
文献关键词:
属性提取;词频-逆文档频度;LDA模型;种子约束;重组;属性类别映射
作者姓名:
陈可嘉;郑晶晶
作者机构:
福州大学 经济与管理学院, 福建 福州350116
引用格式:
[1]陈可嘉;郑晶晶-.基于种子约束LDA的产品属性提取方法)[J].华南理工大学学报(自然科学版),2022(06):37-48,70
A类:
种子约束,属性类别映射
B类:
LDA,产品属性,属性提取,同产,购买决策,Dirichlet,用词,词频,文档,频度,TF,IDF,自动提取,种子集,长文,多属性,短文本,稀疏性,must,link,cannot,吉布斯,射到,先验,中方,比较方法
AB值:
0.290502
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。