典型文献
结合LDA与Word2vec的文本语义增强方法
文献摘要:
文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型.该模型利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量中,代替one-hot向量输入至Sem2vec模型,在最大化对数似然目标函数约束下,训练Sem2vec模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示.在不同数据集上的实验结果表明,相比其他经典模型,Sem2vec模型的语义词向量之间的语义相似度计算更为准确.另外,根据Sem2vec模型得到的文本语义向量,在多种文本分类算法上的分类结果,较其他经典模型可以提升0.58%~3.5%,同时也提升了时间性能.
文献关键词:
LDA主题模型;Word2vec模型;语义词向量;语义相似度;文本分类
中图分类号:
作者姓名:
唐焕玲;卫红敏;王育林;朱辉;窦全胜
作者机构:
山东工商学院 计算机科学与技术学院,山东 烟台 264005;山东省高等学校协同创新中心:未来智能计算,山东 烟台 264005;山东省高校智能信息处理重点实验室(山东工商学院),山东 烟台 264005;山东工商学院 信息与电子工程学院,山东 烟台 264005;上海绘话智能科技有限公司,上海 200120
文献出处:
引用格式:
[1]唐焕玲;卫红敏;王育林;朱辉;窦全胜-.结合LDA与Word2vec的文本语义增强方法)[J].计算机工程与应用,2022(13):135-145
A类:
Sem2vec
B类:
LDA,Word2vec,文本语义,语义增强,增强方法,自然语言处理,学习领域,前文本,文本表示,语义缺失,主题模型,semantic,vector,单词,主题分布,上下文,文词,主题相似度,语义信息,one,hot,对数似然,函数约束,最优参数,语义词向量,向量表示,语义相似度,相似度计算,多种文,文本分类,分类算法,时间性能
AB值:
0.356466
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。