典型文献
面向多表连接查询优化的基数估计方法
文献摘要:
基数估计是实现数据库多表连接(JOIN)查询优化的重要手段之一.对数据量较大的数据表进行基数估计时常用数据抽样来获得较小的样本,从而估计各种查询负载下所需的数据基数.在单表上利用数据抽样来完成基数估计的方法已经得到广泛研究,但在多个数据表的抽样样本总体存储预算存在限制时,目前仍缺乏有效的多表间样本数划分方法使得整体基数估计达到较优.为此,提出一种面向多表JOIN查询优化的基数估计方法,针对一组给定的含有复杂多JOIN操作的查询负载,为其合理分配数据库中每个表的抽样率,从而在满足样本大小总和限制的同时使得基数估计准确率达到最高.将上述过程抽象为一个抽样率分配搜索问题,在数据库数据抽样问题中引入贝叶斯优化搜索算法,利用该算法快速搜索出不同表之间抽样样本大小的分配比例,使得有限时间内获得的样本分配方案对应的基数估计准确率最高,从而达到查询优化的目的.在TPC-H数据集上的实验结果表明,在相同时间内确定多JOIN操作查询负载下基数估计准确率最高的抽样比例方案时,相比随机搜索算法,贝叶斯优化算法所得方案对应的基数估计误差率降低54.8%~60.2%.
文献关键词:
多表连接;查询优化;基数估计;数据抽样;贝叶斯优化
中图分类号:
作者姓名:
钱文渊;荆一楠;王晓阳;吴振环
作者机构:
复旦大学 计算机科学技术学院,上海 200433;司法部 信息中心,北京 100020
文献出处:
引用格式:
[1]钱文渊;荆一楠;王晓阳;吴振环-.面向多表连接查询优化的基数估计方法)[J].计算机工程,2022(06):167-173
A类:
JOIN
B类:
多表连接,查询优化,基数估计,估计方法,数据量,数据抽样,样样,划分方法,合理分配,配数,总和,间抽,分配比例,得有,有限时间,分配方案,TPC,随机搜索算法,贝叶斯优化算法,估计误差,误差率
AB值:
0.197092
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。