典型文献
结合密度峰值和改进自然邻居的自训练算法
文献摘要:
自训练算法是一种经典的半监督学习算法.针对自训练算法在训练时很难有效地发现高置信度无标记样本、训练过程中样本容易被错误标记等问题,提出了结合密度峰值和改进自然邻居的自训练算法.该算法利用密度峰值聚类算法的密度信息和由自然邻居算法得到的自然邻居集来计算样本的离群指数,结合表示全局特征的全局密度和表示局部特征的离群指数设定样本的权重并剔除离群点.在自训练算法逐步扩充有标记样本集的过程中,利用加权的自然邻居噪声过滤器找出误标记样本,并通过计算样本的不确定性找出高不确定性的样本,由主动学习给出准确标记.提出的算法不仅降低了离群点对算法性能的影响,而且有效解决了错误标记的问题,处理了不易标记的边界样本.实验表明,该算法在UCI基准数据集和噪声数据集上均取得了理想的效果.
文献关键词:
半监督学习;自训练算法;密度峰值聚类;自然邻居;噪声过滤器
中图分类号:
作者姓名:
吕佳;刘强;李帅军
作者机构:
重庆师范大学计算机与信息科学学院,重庆,401331;重庆市数字农业服务工程技术研究中心,重庆,401331
文献出处:
引用格式:
[1]吕佳;刘强;李帅军-.结合密度峰值和改进自然邻居的自训练算法)[J].南京大学学报(自然科学版),2022(05):805-815
A类:
自然邻居,噪声过滤器
B类:
自训练算法,半监督学习,置信度,无标记,标记样本,训练过程,误标记,法利,密度峰值聚类算法,邻居集,全局特征,局部特征,离群点,样本集,确定性的,主动学习,算法性能,UCI,基准数据集,噪声数据
AB值:
0.16786
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。