首站-论文投稿智能助手
典型文献
支持多维度数据去重的交互式可视分析方法
文献摘要:
多维度数据中的重复数据会严重影响数据的挖掘、分析与应用.针对传统的数据去重方法的成本、效率和便捷性无法满足大数据分析需求的问题,提出一种数据去重的交互式可视分析方法.该方法将多维度数据通过表示学习提取高维特征向量;使用降维算法将其降至二维散点图;采用无监督聚类算法进行分析;支持用户交互式地调整算法模型及参数,逐步筛选确认重复数据并执行去重操作.对某大型供应链集成服务集团公司数据集进行分析、实验和用户调研,结果表明该方法能有效地处理主流数据清洗软件Trifacta Wrangler和OpenRefine难以发现的复杂数据重复问题,并且效率是它们的2倍以上,在学习难度和使用便捷性等方面也具有明显优势.
文献关键词:
数据治理;数据清洗;数据去重;多维度数据;可视化分析方法
作者姓名:
朱海洋;钱中昊;严凡;毛科添;应昊键;王杰;陈为
作者机构:
浙江大学CAD&CG国家重点实验室 杭州 310058;物产中大集团股份有限公司 杭州 310006;人工智能省部共建协同创新中心(浙江大学) 杭州 310058
引用格式:
[1]朱海洋;钱中昊;严凡;毛科添;应昊键;王杰;陈为-.支持多维度数据去重的交互式可视分析方法)[J].计算机辅助设计与图形学学报,2022(06):841-851
A类:
Trifacta,Wrangler,OpenRefine
B类:
多维度数据,数据去重,交互式,可视分析,重复数据,分析与应用,重方法,便捷性,数据通,表示学习,高维特征向量,降维算法,二维散点图,无监督聚类,聚类算法,用户交互,算法模型,去重操作,供应链集成服务,集团公司,用户调研,流数据,数据清洗,复杂数据,学习难度,数据治理,可视化分析方法
AB值:
0.35714
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。