浅谈SQL执行计划优化(GBase8s篇)

在日常开发过程中,优化sql查询始终是一个具有挑战性的任务。俗话说,工欲善其事,必先利其器。今天,我们将探讨如何查看gbase8s的执行计划以及有哪些优化手段。

执行计划优化分为基于规则的优化(RBO)和基于成本的优化(CBO)。

基于规则的优化(RBO)通过一系列预先定义的规则对逻辑计划进行等价转换,以提高查询效率。这种方法减少了参与计算的数据量,降低了重复计算的代价。

优点:RBO相对于CBO而言更为成熟,常用的规则基于经验制定,覆盖了大部分查询场景,并且易于扩展。

缺点:RBO不够灵活,因为在这一阶段,系统对物理特征(如表的底层存储形式和实际数据量)尚未感知。

常见的优化手段包括:

  • 谓词下推(Predicate Pushdown)
  • 常量折叠(Constant Folding)
  • 列裁剪(Column Pruning)

浅谈SQL执行计划优化(GBase8s篇)浅谈SQL执行计划优化(GBase8s篇)浅谈SQL执行计划优化(GBase8s篇)

基于成本的优化(CBO)通过计算所有可能的物理计划的代价,并选择代价最小的物理执行计划。其核心在于评估给定物理执行计划的代价。

物理执行计划是一个树状结构,其总代价等于每个执行节点的代价之和。每个执行节点的代价分为两部分:

腾讯云AI代码助手 腾讯云AI代码助手

基于混元代码大模型的AI辅助编码工具

腾讯云AI代码助手 205 查看详情 腾讯云AI代码助手
  1. 该执行节点对数据集的影响,即节点输出数据集的大小与分布。
  2. 该执行节点操作算子的代价。

每个操作算子的代价相对固定,可以用规则来描述。而执行节点输出数据集的大小与分布包括两部分:

  1. 初始数据集,即原始表,其数据集的大小与分布可直接通过统计信息获得。
  2. 中间节点输出数据集的大小与分布可由其输入数据集的信息和操作本身的特点推算。

因此,最终需要解决两个问题:

  • 如何获取原始数据集的统计信息。
  • 如何根据输入数据集估算特定算子的输出数据集。

浅谈SQL执行计划优化(GBase8s篇)浅谈SQL执行计划优化(GBase8s篇)

要查看GBase8s的执行计划,需要开启并配置执行计划:

> set explain on;
Explain set.
> set explain file to '/opt/GBASE/gbase/aaa.out';
Explain set.
> select o.oid,o.counts,o.memo,i.iid,i.name,i.catalog,(1+1+i.iid) from order_table as o inner join item_table as i on o.iid = i.iid  where i.iid 

查看执行计划:

[jacky@localhost gbase]$ cat aaa.out
QUERY: (OPTIMIZATION TIMESTAMP: 02-17-2025 22:44:39)
------
select o.oid,o.counts,o.memo,i.iid,i.name,i.catalog,(1+1+i.iid) from order_table as o inner join item_table as i on o.iid = i.iid  where i.iid 

今天的分享就到这里,欢迎大家与我交流。

参考资料:

  • 本文中大部分图片引用自Spark Catalyst介绍。
  • https://www.php.cn/link/a6a4398accc1bec791a19e262725bee3
  • https://www.php.cn/link/66a733febe222a5f3ae377f413c19305

以上就是浅谈SQL执行计划优化(GBase8s篇)的详细内容,更多请关注其它相关文章!

本文转自网络,如有侵权请联系客服删除。