典型文献
灵活自适应的无监督降维
文献摘要:
无标签高维数据在图像处理、自然语言处理、数据挖掘等实际场景中无处不在.人工手动标记工作量大、劳动密集、时间开销高、易受主观因素影响且普适性差.计算机在处理高维数据时,时间复杂度大且对硬件配置要求高.因此,无监督降维成为一项迫切的需求.常规基于图的无监督降维方法,使用提前构建的、固定的相似度图学习得到高维数据的低维表示.然而,使用固定不变的相似度图无法修改噪点、离群值和样本外数据引起的不可靠相似度信息.这对于复杂多样的实际任务要求过于严格.为此,本文提出一种灵活自适应的无监督降维(Flexible and Adaptive Unsupervised Dimensionality Reduction,FAUDR)方法.FAUDR 通过引入一个回归项,使严格的线性映射规则得到灵活地松弛,以更好地处理可能会引起不可靠信息的噪点、离群值和样本外数据.在降维过程中,该方法同时依赖原始高维数据和动态变化的低维表示,自适应地学习相似度图.将相似度图的构建和低维表示结合起来.自适应学习的相似度图在原始高维空间以及低维空间都实现了理想的邻居分配.这也促进了最佳低维子空间的探索.此外,本文采用了一种有效的交替迭代优化算法,依次更新目标问题中的所有变量.结束迭代后,同时得到相似度矩阵和低维表示的最优解.最后,本文从理论上分析了该算法的收敛性、计算复杂度和存储复杂度.实验分别在两个合成数据集上和八个基准数据集上进行.合成数据集上的实验直观地展示了 FAUDR处理噪点和离群值的能力.基准数据上的实验从降维性能、参数敏感性和收敛性三个方面分别验证了 FAUDR的有效性.综合实验结果表明,相比于一些经典方法和当前有代表性的方法,本文所提出方法表现出良好的降维性能.不同维度基准数据集上的实验结果显示,该方法比结果第二好的方法在精度(ACCuracy,ACC)、标准化互信息(Normalized Mutual Information,NMI)和纯度(Purity)上分别提升了至少 3.25%、0.73%和 3.00%.
文献关键词:
无监督学习;降维;相似度图;高维数据;低维表示
中图分类号:
作者姓名:
强倩瑶;张斌
作者机构:
西安交通大学软件学院 西安 710049
文献出处:
引用格式:
[1]强倩瑶;张斌-.灵活自适应的无监督降维)[J].计算机学报,2022(11):2290-2305
A类:
FAUDR,ACCuracy
B类:
无标签,高维数据,自然语言处理,无处不在,记工,劳动密集,开销,主观因素,时间复杂度,硬件配置,降维方法,相似度图,图学习,习得,低维表示,噪点,离群值,不可靠,任务要求,Flexible,Adaptive,Unsupervised,Dimensionality,Reduction,线性映射,映射规则,松弛,地学,将相,自适应学习,高维空间,低维空间,邻居,低维子空间,交替迭代,迭代优化,有变,相似度矩阵,矩阵和,最优解,收敛性,计算复杂度,合成数据集,八个,基准数据集,参数敏感性,综合实验,经典方法,不同维度,互信息,Normalized,Mutual,Information,NMI,Purity,无监督学习
AB值:
0.334488
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。