首站-论文投稿智能助手
典型文献
融合半监督学习与主动学习的细分领域新闻分类研究
文献摘要:
[目的]在基于新闻文本挖掘的开源技术情报监测任务场景下,提出一种结合半监督学习与主动学习的细分领域新闻分类方案.[方法]首先,在新闻文本表示学习的基础上开展K-Means聚类,筛选各类簇中少量代表性样本供人工判定类目,合并调整后作为细分领域类目;其次,利用代表性样本作为训练集,集成多种分类算法训练出初始分类器;最后,结合困惑度和混淆矩阵开展主动学习有针对性地迭代优化初始分类器.[结果]在坦克装甲车领域新闻数据集上进行测试,进行主动学习后取得较好的文本分类结果,正确率、召回率和F1值达到83.68%、83.35%和83.17%,较主动学习前分别提升2.71、2.52和2.81个百分点.[局限]为了减少人工语料标注任务,主动学习环节仅做了两次迭代.[结论]所提方案能够在缺乏语料标注、未预设细分类目的原始状态下,仅利用少量人工参与成本,即可一体化地获得效果较好的细分领域新闻分类器.该方案在实践中具有较高的性价比和良好的领域泛化能力.
文献关键词:
半监督学习;主动学习;文本分类;集成学习
作者姓名:
陈果;叶潮
作者机构:
南京理工大学经济管理学院 南京210094;江苏省社会公共安全科技协同创新中心 南京210094
引用格式:
[1]陈果;叶潮-.融合半监督学习与主动学习的细分领域新闻分类研究)[J].数据分析与知识发现,2022(04):28-38
A类:
B类:
融合半监督,半监督学习,主动学习,分领,分类研究,新闻文本,文本挖掘,开源技术,技术情报,情报监测,任务场景,分类方案,文本表示学习,Means,代表性样本,供人,类目,训练集,分类算法,算法训练,练出,分类器,混淆矩阵,迭代优化,坦克,装甲车,新闻数据,文本分类,召回率,百分点,语料标注,学习环节,细分类,参与成本,性价比,领域泛化,泛化能力,集成学习
AB值:
0.414151
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。