Spark查询引擎中Join操作的优化|赵丽梅;黄小菊;宫学庆 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

Spark查询引擎中Join操作的优化

文献摘要：

Spark是基于Map/Reduce计算模型进行大规模数据处理的分布式系统,每个任务都会被分为很多Map处理和Reduce处理在各个节点上并行执行.Shuffle操作是用于连接Map处理和Reduce处理的桥梁.在对两个大表进行Join操作的过程中,如果两表Join列不完全匹配,Spark中现有的Join实现算法会对大量数据进行shuffle操作,严重影响执行效率.提出一种基于Semi Join思想的Join实现算法——Semi Sort Merge Join,通过对左表Join列数据所构建的HashMap对右表数据进行过滤,可以有效减少Shuffle操作过程中所需传输的数据量.算法分析和实验结果表明,对于Join列数据不完全匹配的大表间Join操作,该算法能有效减少Shuffle操作的开销,右表与左表匹配数据量越少,算法优化的效果越明显.

文献关键词：

Spark;Join;Shuffle;Semi Join

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机软件（TP31） / 程序设计、软件工程（TP311）

[2] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3）

[3] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391）

作者姓名：

赵丽梅;黄小菊;宫学庆

作者机构：

华东师范大学软件工程学院上海 200062

文献出处：

计算机应用与软件

引用格式：

[1]赵丽梅;黄小菊;宫学庆-.Spark查询引擎中Join操作的优化)[J].计算机应用与软件,2022(08):44-50

A类：

HashMap

B类：

Spark,Join,Reduce,大规模数据,分布式系统,并行执行,Shuffle,于连,法会,shuffle,执行效率,Semi,Sort,Merge,行过滤,操作过程,数据量,算法分析,开销,匹配数,越少,算法优化

AB值：

0.328007

相似文献

分布式资源描述框架数据管理系统查询性能评价

冯钧;王秉发;陆佳民-河海大学计算机与信息学院,南京211100

布隆过滤器研究综述

华文镝;高原;吕萌;谢平-青海师范大学计算机学院,西宁810016;青海省物联网重点实验室,西宁810008;省部共建藏语智能信息处理及应用国家重点实验室,西宁810008;高原科学与可持续发展研究院,西宁810016

基于区块链与边缘计算的物联网访问控制模型

张杰;许姗姗;袁凌云-云南师范大学信息学院,昆明650500;教育部西部资源环境地理信息技术教育部工程研究中心(云南师范大学),昆明650500;教育部民族教育信息化教育部重点实验室(云南师范大学),昆明650500

基于神经网络和仿真数据的粗糙度分类检测

易怀安;陆玲莉;舒爱华;路恩会-桂林理工大学机械与控制工程学院,桂林 541006;桂林理工大学外国语学院,桂林 541006;扬州大学机械工程学院,扬州225009

面向海量空间数据的分布式距离连接算法

王如斌;李瑞远;何华均;刘通;李天瑞-西南交通大学信息科学与技术学院成都 611756;京东智能城市研究院北京 100176;重庆大学计算机学院重庆400044;上海大学计算机工程与科学学院上海200444

基于锚点的快速无监督图嵌入

杨辉;陶力宏;朱建勇;聂飞平-华东交通大学电气与自动化工程学院南昌 330013;江西省先进控制与优化重点实验室南昌 330013;西北工业大学光学影像分析与学习中心西安 710072

基于Hachimoji DNA和QR分解的遥感图像可逆隐藏算法

王坤姝;张泽辉;高铁杠-南开大学软件学院天津300350

面向多表连接查询优化的基数估计方法

钱文渊;荆一楠;王晓阳;吴振环-复旦大学计算机科学技术学院,上海 200433;司法部信息中心,北京 100020

基于申威众核处理器的MD5解密算法优化

张恒;赵荣彩;董本松-中原工学院计算机学院,河南郑州 450007;中原工学院前沿信息技术研究院,河南郑州 450007

面向信息网模型的动态数据划分算法

袁嘉立;刘梦赤-华南师范大学计算机学院,广东广州 510631

基于卷积与稀疏编码的半监督学习方法

刘缨杰;兰海;魏宪-中国科学院福建物质结构研究所泉州装备制造研究中心,福建泉州 362200

支持分页显存的高性能哈希表索引系统

熊轶翔;蒋筱斌;张珩;武延军-中国科学院软件研究所,北京100190;中国科学院大学,北京100049

Spark平台下基于加权词向量的文本分类方法

蔡宇翔;王佳斌;郑天华-华侨大学工学院,泉州 362021

基于时间加权ALS模型协同过滤推荐算法

徐雪东;刘晓东-武汉邮电科学研究院,湖北武汉430070;武汉虹旭信息技术有限责任公司,湖北武汉430070

基于动态环境建模与智能感知的实训方法研究

闫琳-西安航空职业技术学院,陕西西安710089

基于Spark的智慧医院决策系统设计与实现

赵志建-江苏联合职业技术学院南京工程分院,南京 211135

基于Spark的并行模拟退火算法求解TSP

孙鉴;刘凇佐;武晓晓;巫思敏-北方民族大学计算机科学与工程学院银川750021

基于Spark的并行k均值聚类模拟退火算法求解MMTSP

孙鉴;李昊;刘凇佐;刘品;陈攀;雷冰冰-北方民族大学计算机科学与工程学院银川750021;图像图形智能处理国家民委重点实验室银川750021

基于Shuffle-Unet的视网膜血管分割研究

秦俊豪;李志忠;冯家乐-广东工业大学信息工程学院广州510006

基于改进K-means++和DBSCAN的大数据聚类方法

张玉琴;梁莉;张建亮;冯向东-成都理工大学工程技术学院乐山614000;成都理工大学数理学院成都610059

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。