首站-论文投稿智能助手
典型文献
面向多表数据连接投影和连接顺序的优化方法
文献摘要:
多表连接运算是大数据处理中常见的运算.类似于数据库运算中常见的连接操作,多表连接运算的顺序会对计算资源和传输资源的消耗产生巨大影响.对多表连接顺序的优化是一个经典的优化问题,同时每次连接中表的投影结果大小也会影响节点间传输的数据体积,因此整体连接的顺序和每次连接的投影关系都会对连接效率产生显著的影响,而在传统的优化策略中,往往不会考虑到中间投影关系的取舍问题,以及基于中间投影关系而对最优连接策略产生的影响.针对这个问题,建立了一种连接关系索引,能够在构建优化连接策略中调整每次连接的投影关系,及时删除冗余列,减少对传输资源的消耗,同时基于投影关系的优化调整连接顺序的优化策略,从全局考量上尽可能地同时减少对传输资源和计算资源的消耗.该优化策略在Flink系统实现后进行了实验,结果表明有显著的优化效果.
文献关键词:
大数据;连接优化;投影优化
作者姓名:
宗枫博;赵宇海;王国仁;季航旭
作者机构:
东北大学 计算机科学与工程学院,沈阳 110169;北京理工大学 计算机学院,北京 100081
引用格式:
[1]宗枫博;赵宇海;王国仁;季航旭-.面向多表数据连接投影和连接顺序的优化方法)[J].计算机科学与探索,2022(01):106-119
A类:
B类:
数据连接,多表连接,接运,算是,大数据处理,计算资源,巨大影响,优化问题,会考,取舍,索引,删除,优化调整,Flink,系统实现,优化效果,连接优化,投影优化
AB值:
0.368756
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。