典型文献
密度峰值隶属度优化的半监督Self-Training算法
文献摘要:
现实中由于获取标签的成本很高,大部分的数据只含有少量标签.相比监督学习和无监督学习,半监督学习能充分利用数据集中的大量无标签数据和少量有标签数据,以较少的标签成本获得较高的学习性能.自训练算法是一种经典的半监督学习算法,在其迭代优化分类器的过程中,不断从无标签样本中选取高置信度样本并由基分类器赋予标签,再将这些样本和伪标签添加进训练集.选取高置信度样本是Self-Training算法的关键,受密度峰值聚类算法(DPC)启发,将密度峰值用于高置信度样本的选取,提出了密度峰值隶属度优化的半监督Self-Training算法(STDPM).首先,STDPM利用密度峰值发现样本的潜在空间结构信息并构造原型树.其次,搜索有标签样本在原型树上的无标签近亲结点,将无标签近亲结点的隶属于不同类簇的峰值定义为簇峰值,归一化后作为密度峰值隶属度.最后,将隶属度大于设定阈值的样本作为高置信度样本,由基分类器赋予标签后添加进训练集.STDPM充分利用密度峰值所隐含的密度和距离信息,提升了高置信度样本的选取质量,进而提升了分类性能.在8个基准数据集上进行对比实验,结果验证了STDPM算法的有效性.
文献关键词:
密度峰值隶属度;簇峰值;原型树;近亲结点集;自训练
中图分类号:
作者姓名:
刘学文;王继奎;杨正国;李冰;聂飞平
作者机构:
兰州财经大学 信息工程学院,兰州 730020;西北工业大学 光学影像分析与学习中心,西安 710072
文献出处:
引用格式:
[1]刘学文;王继奎;杨正国;李冰;聂飞平-.密度峰值隶属度优化的半监督Self-Training算法)[J].计算机科学与探索,2022(09):2078-2088
A类:
密度峰值隶属度,STDPM,原型树,簇峰值,近亲结点集
B类:
Self,Training,无监督学习,半监督学习,无标签数据,学习性,自训练算法,迭代优化,无标签样本,置信度,基分类器,伪标签,加进,训练集,密度峰值聚类算法,DPC,潜在空间,空间结构信息,树上,隶属于,分类性能,基准数据集
AB值:
0.158475
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。