Calcite原理和代码讲解(一)
1.Calcite介绍(1)简介Apache Calcite 是面向 Hadoop 新的查询引擎,它提供了标准的 SQL 语言、多种查询优化和连接各种数据源的能力。Calcite 的目标是“ one size fits all (一种方案适应所有需求场景)”,希望能为不同计算平台和数据源提供统一的查询引擎,并以类似传统数据库的访问方式(SQL 和高级查询优化)来访问Hadoop 上的数据。Calc
·
1.Calcite介绍
(1)简介
-
Apache Calcite 是面向 Hadoop 新的查询引擎,它提供了标准的 SQL 语言、多种查询优化和连接各种数据源的能力。
-
Calcite 的目标是“ one size fits all (一种方案适应所有需求场景)”, 希望能为不同计算平台和数据源提供统一的查询引擎,并以类似传统数据库的访问方式(SQL 和高级查询优化)来访问Hadoop 上的数据。
-
Calcite 之前的名称叫做 optiq ,optiq 起初在 Hive 项目中,为 Hive 提供基于成本模型的优化,即 CBO(Cost Based Optimizatio)。2014 年 5 月 optiq 独立出来,成为 Apache 社区的孵化项目,2014 年 9 月正式更名为 Calcite。
(2)技术特性
-
支持标准 SQL 语言;
-
独立于编程语言和数据源, 可以支持不同的前端和后端(后面再补充解释);
-
支持 关系代数、可定制的逻辑规划规则和基于成本模型优化的查询引擎;
-
支持物化视图( materialized view)的管理(创建、丢弃、持久化和自动识别)
-
个人理解:flexible, embeddable, and extensible(灵活性、组件可插拔、可扩展)。它的 SQL Parser 层、Optimizer 层等都可以单独使用。
2.关系代数
-
关系代数是关系型数据库操作的理论基础,关系代数支持 并、差、笛卡尔积、投影和选择等基本运算。
-
关系代数也是 Calcite 的核心, 任何一个查询都可以表示成由关系运算符组成的树。 在 Calcite 中,它会先将 SQL 转换成关系表达式(relational expression),然后通过规则匹配(rules match)进行相应的优化,优化会有一个成本(cost)模型为参考。
3.Calcite架构
-
calcite架构与传统数据库管理系统有一些相似之处,相比而言, 它将数据存储、数据处理算法和元数据存储这些部分忽略掉了。
-
好处是:对于涉及多种数据源和多种计算引擎的应用而言,Calcite 因为可以兼容多种存储和计算引擎,使得 Calcite 可以提供统一查询服务。
-
Calcite 架构中,最核心地方就是 Optimizer,也就是优化器,一个 Optimization Engine 包含三个组成部分
-
Rules:也就是 匹配规则,Calcite 内置上百种 Rules 来优化 relational expression,当然也支持自定义 rules;
-
metadata providers:主要是向优化器提供信息,这些信息会有助于指导优化器向着目标(减少整体 cost)进行优化, 信息可以包括行数、table 哪一列是唯一列等,也包括计算 RelNode 树中执行 subexpression cost 的函数。
-
planner engines:它的主要目标是进行触发 rules 来达到指定目标,比如像 cost-based optimizer(CBO)的目标是减少cost (Cost 包括处理的数据行数、CPU cost、IO cost 等)
-
4.Calcite核心概念
-
RelOptRule:根据传递给它的 RelOptRuleOperand 来对目标 RelNode 树进行 规则匹配,匹配成功后,会再次调用 matches() 方法进行进一步检查。如果 mathes结果为真,则调用 onMatch() 进行转换。
-
ConverterRule:它是 RelOptRule 的子类,专门用来做 数据源之间的转换(Calling convention),ConverterRule 一般会调用对应的 Converter 来完成工作,比如说:JdbcToSparkConverterRule 调用 JdbcToSparkConverter 来完成对 JDBC Table 到 Spark RDD 的转换。
-
RelNode:relational expression,which contains input RelNode。代表了对数据的一个处理操作,常见的操作有 Sort、Join、Project、Filter、Scan 等。它蕴含的是对整个 Relation 的操作,而不是对具体数据的处理逻辑。
-
Converter: 用来把一种 RelTrait 转换为另一种 RelTrait 的 RelNode。如 JdbcToSparkConverter 可以把 JDBC 里的 table 转换为 Spark RDD。如果需要在一个 RelNode 中处理来源于异构系统的逻辑表,Calcite 要求先用 Converter 把异构系统的逻辑表转换为同一种 Convention。
-
RexNode: 行表达式(标量表达式),蕴含的是对一行数据的处理逻辑。每个行表达式都有数据的类型。这是因为在 Valdiation 的过程中,编译器会推导出表达式的结果类型。常见的行表达式包括字面量 RexLiteral, 变量 RexVariable, 函数或操作符调用 RexCall 等。 RexNode 通过 RexBuilder 进行构建。
-
RelTrait: 用来定义逻辑表的物理相关属性(physical property),三种主要的 trait 类型是:Convention、RelCollation、RelDistribution;
-
Convention:继承自 RelTrait,类型很少,代表一个单一的数据源,一个 relational expression 必须在同一个 convention 中;
-
RelTraitDef:主要有三种: ConventionTraitDef:用来代表数据源。 RelCollationTraitDef:用来定义参与排序的字段。 RelDistributionTraitDef:用来定义数据在物理存储上的分布方式(比如:single、hash、range、random 等);
-
RelOptCluster: palnner 运行时的环境,保存上下文信息;
-
RelOptPlanner:也就是 优化器,Calcite 支持 RBO(Rule-Based Optimizer) 和 CBO(Cost-Based Optimizer)。Calcite 的 RBO (HepPlanner)称为 启发式优化器(heuristic implementation ), 它简单地按 AST 树结构匹配所有已知规则,直到没有规则能够匹配为止;Calcite 的 CBO 称为 火山式优化器(VolcanoPlanner)成本优化器也会匹配并应用规则,当整棵树的成本降低趋于稳定后,优化完成,成本优化器依赖于比较准确的成本估算。RelOptCost 和 Statistic 与成本估算相关;
-
RelOptCost: 优化器成本模型会依赖。
5.Calcite处理SQL流程
sql执行流程(目前看来基本上所有SQL编译器
都是相似流程,只是细节不同):
-
解析 SQL: 把 SQL 转换成为 AST (抽象语法树),在 Calcite 中用 SqlNode 来表示;
-
语法检查: 根据数据库的元数据信息进行语法验证,验证之后还是用 SqlNode 表示 AST 语法树 (标准化修改:比如只写join会变成inner join);
-
语义分析:根据 SqlNode 及元信息构建 RelNode 树,也就是 最初版本的逻辑计划(Logical Plan);
-
逻辑计划优化:优化器的核心, 根据前面生成的逻辑计划按照相应的规则(Rule)进行优化(逻辑计划调整);
-
物理执行:生成物理计划,物理执行计划执行 (具体执行计划就要看存储引擎如何设计,比较Mysql有Innodb,Hive默认使用HDFS存储)。
(1)Step1: SQL 解析阶段(SQL–>SqlNode)
-
Calcite 进行 Sql 解析的代码如下:
-
SqlParser parser = SqlParser.create(sql, SqlParser.Config.DEFAULT);
-
SqlNode sqlNode = parser.parseStmt();
-
-
Calcite 使用 JavaCC( Java Compiler Compiler ) 做 SQL 解析,JavaCC 根据 Calcite 中定义的 Parser.jj 文件,生成一系列的 java 代码,生成的 Java 代码会把 SQL 转换成 AST 的数据结构( 这里是 SqlNode 类型)。
-
与 Javacc 相似的工具还有 ANTLR,JavaCC 中的 jj 文件也跟 ANTLR 中的 G4文件类似,Apache Spark(Inceptor)中使用这个工具做类似的事情。
-
Javacc实现了一个 SQL Parser,它的功能有以下两个( 这里都是需要在 jj 文件中定义的):
-
设计 词法和语义,定义 SQL 中具体的元素;
-
实现 词法分析器(Lexer)和语法分析器(Parser),完成对 SQL 的解析,完成相应的转换。
-
【SQL案例】
解析sqlNode结果:
(2)Step2: SQL 验证阶段(SqlNode–>SqlNode)
-
经过上一步,会生成一个 SqlNode 对象,它是一个未经验证的抽象语法树,下面就进入了一个语法检查阶段, 语法检查前需要知道元数据信息,这个检查会包括 表名、字段名、函数名、数据类型的检查。
-
Calcite 本身是不管理和存储元数据的,在检查之前, 需要先把元信息注册到 Calcite 中,一般的操作方法是实现 SchemaFactory, 由它去创建相应的 Schema,在 Schema 中可以注册相应的元数据信息。
-
SqlValidatorImpl 检查过程
-
rewrite expression, 将其标准化,便于后面的逻辑计划优化;
-
注册这个 relational expression 的 scopes 和 namespaces (这两个对象代表了其元信息);
-
进行相应的验证,这里会依赖第二步注册的 scopes 和 namespaces 信息。
-
(3)Step3: SQL 语义分析阶段(
SqlNode
–>RelNode/RexNode)
-
主要步骤:
-
初始化 RexBuilder;
-
初始化 RelOptPlanner;
-
初始化 RelOptCluster;
-
初始化 SqlToRelConverter;
-
进行转换;
-
转换部分
-
SqlToRelConverter 中的 convertQuery() 将 SqlNode 转换为 RelRoot
-
真正实现部分:convertQueryRecursive
-
(4)Step4: 优化阶段(
RelNode
–>RelNode)
-
提供了两种 planner:HepPlanner 和 VolcanoPlanner
-
HepPlanner:
-
HepPlanner is a heuristic optimizer similar to Spark’s optimizer: 与 spark 的优化器相似,HepPlanner 是一个 heuristic 优化器;
-
Applies all matching rules until none can be applied: 将会匹配所有的 rules 直到某个 rule 被满足;
-
Heuristic optimization is faster than cost- based optimization:它比 CBO 更快;
-
Risk of infinite recursion if rules make opposing changes to the plan: 如果没有每次都不匹配规则,可能会有无限递归风险;
-
-
VolcanoPlanner:
-
VolcanoPlanner is a cost-based optimizer:VolcanoPlanner是一个CBO优化器;
-
Applies matching rules iteratively, selecting the plan with the cheapest cost on each iteration: 迭代地应用 rules,直到找到cost最小的plan;
-
Costs are provided by relational expressions;
-
Not all possible plans can be computed: 不会计算所有可能的计划(如何判断?有时间再补充...);
-
Stops optimization when the cost does not significantly improve through a determinable number of iterations:根据已知的情况, 如果下面的迭代不能带来提升时,这些计划将会停止优化(类似与机器学习中损失函数,只不过early_stop为1个epoch);
-
-
简单的优化 (过滤条件下压,也称为谓词下推)
-
关于filter 操作下压,在 Calcite 中已经有相应的 Rule 实现,就是 FilterJoinRule.FilterIntoJoinRule.FILTER_ON_JOIN
-
这里使用 HepPlanner 作为示例的 planer,并注册 FilterIntoJoinRule 规则进行相应的优化(这里可以看到where u.age>10 and j.id>0被下推到扫表操作上面,也就是说SQL引擎扫描一遍表时如果发现表中某行满足过滤条件则拿取出来,否则跳过)
参考资料
https://www.cnblogs.com/wcgstudy/p/11795886.html
https://www.infoq.cn/article/new-big-data-hadoop-query-engine-apache-calcite
https://www.jianshu.com/p/2dfbd71b7f0f
https://www.slideshare.net/JordanHalterman/introduction-to-apache-calcite
-
更多推荐
已为社区贡献3条内容
所有评论(0)