首站-论文投稿智能助手
典型文献
基于哈希学习的投票样例选择算法
文献摘要:
随着数据的海量型增长,如何存储并利用数据成为目前学术研究和工业应用等方面的热门问题.样例选择是解决此类问题的方法之一,它在原始数据中依据既定规则选出代表性的样例,从而有效地降低后续工作的难度.基于此,提出一种基于哈希学习的投票样例选择算法.首先通过主成分分析(PCA)方法将高维数据映射到低维空间;然后利用k-means算法结合矢量量化方法进行迭代运算,并将数据用聚类中心的哈希码表示;接着将分类后的数据按比例进行随机选择,在多次独立运行算法后投票选择出最终的样例.与压缩近邻(CNN)算法和大数据线性复杂度样例选择算法LSH-IS-F相比,所提算法在压缩比方面平均提升了19%.所提算法思想简单容易实现,能够通过调节参数自主控制压缩比.在7个数据集上的实验结果显示所提算法在测试精度相似的情况下在压缩比和运行时间方面较随机哈希有较大优势.
文献关键词:
样例选择;哈希学习;海明距离;矢量量化;投票方法
作者姓名:
黄雅婕;翟俊海;周翔;李艳
作者机构:
河北大学数学与信息科学学院,河北保定071002;河北省机器学习与计算智能重点实验室(河北大学),河北保定071002;北京师范大学珠海校区应用数学与交叉科学研究中心,广东珠海519087
文献出处:
引用格式:
[1]黄雅婕;翟俊海;周翔;李艳-.基于哈希学习的投票样例选择算法)[J].计算机应用,2022(02):389-394
A类:
样例选择,随机哈希
B类:
哈希学习,票样,选择算法,工业应用,原始数据,既定,后续工作,高维数据,数据映射,射到,低维空间,means,矢量量化,量化方法,聚类中心,哈希码,码表,随机选择,独立运行,票选,近邻,数据线,线性复杂度,LSH,IS,压缩比,比方,法思想,自主控制,测试精度,下在,运行时间,希有,海明距离,投票方法
AB值:
0.375467
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。