典型文献
一种基于Simhash算法的重复域名数据去重方法
文献摘要:
随着数字科学技术的发展,各领域需要传输和存储的数据量急剧上升.然而传输和存储的数据中重复数量占据了很大的比例,这不仅会增加使用数据的成本,也会影响处理数据的效率.域名是一种存储量大而且对处理速率有极高要求的数据,为了节约域名解析系统的存储成本,提高传输效率,本文在原有数据去重技术的基础上,引入了 Simhash算法,结合域名数据的结构特征,改进数据分词和指纹值计算方式,提出了一种基于Simhash算法的重复域名数据去重方法.实验结果表明,相比于传统的数据去重技术,该方法对删除重复域名数据效率更高,具有较好的实际应用价值.
文献关键词:
数据去重;域名;Simhash;数据分块
中图分类号:
作者姓名:
侯开茂;韩庆敏;吴云峰;黄兵;张久发;柴处处
作者机构:
中国电子信息产业集团有限公司第六研究所,北京100083
文献出处:
引用格式:
[1]侯开茂;韩庆敏;吴云峰;黄兵;张久发;柴处处-.一种基于Simhash算法的重复域名数据去重方法)[J].网络安全与数据治理,2022(04):71-76
A类:
B类:
Simhash,名数,数据去重,重方法,数字科学,数据量,重复数,使用数据,存储量,域名解析系统,传输效率,分词,指纹,计算方式,删除,数据分块
AB值:
0.323029
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。