典型文献
融合类别特征扩展与N-gram子词过滤的fastText短文本分类
文献摘要:
以提升fastText短文本分类模型性能为目标,从获取高质量的类别特征、降低N-gram子词中低类别区分贡献度子词对模型学习高类别区分贡献度语义特征时产生的干扰角度展开研究,提出基于TF-IDF的LDA类别特征提取方法以提升类别特征质量,提出基于词汇信息熵的N-gram子词过滤方法过滤N-gram子词中低类别区分贡献度子词,并构建更专注于高类别区分贡献度语义特征学习的EF-fastText短文本分类模型.实验结果表明基于TF-IDF的LDA类别特征提取方法,以及基于词汇信息熵的N-gram子词过滤方法对于EF-fastText短文本分类模型性能提升是有效性的.
文献关键词:
短文本分类;fastText;类别特征;词汇信息熵;N-gram
中图分类号:
作者姓名:
李志明;孙艳;何宜昊;申利民
作者机构:
燕山大学信息科学与工程学院,河北秦皇岛066004;河北省计算机虚拟技术与系统集成重点实验室,河北秦皇岛066004;河北省软件工程重点实验室,河北秦皇岛066004;河北省高端装备产业技术研究院,河北秦皇岛066004
文献出处:
引用格式:
[1]李志明;孙艳;何宜昊;申利民-.融合类别特征扩展与N-gram子词过滤的fastText短文本分类)[J].小型微型计算机系统,2022(08):1596-1601
A类:
词汇信息熵
B类:
类别特征,特征扩展,gram,子词,fastText,短文本分类,分类模型,模型性能,别区,贡献度,模型学习,语义特征,TF,IDF,LDA,过滤方法,特征学习,EF,性能提升
AB值:
0.185393
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。