CDH集群使用spark作为hive查询引擎（实时查询）

Hive我们用来搭建数仓，对于大量数据以及离线数仓，可以满足，但是他不能满足实时查询的情况，如果这次客户来了个需求，不在我们统计分析的指标内。那你单独写SQL，然后通过mr底层，就不能立刻出结果，运行sql和统计将消耗大量时间。当然有多种方案（impala+kudu)(presto)都可以。我在CDH上使用，自己的虚拟机测试，避免搭建与启动内存过大，所以采用了spark。...

我要用代码向我喜欢的女孩表白

1709人浏览 · 2022-07-26 10:21:23

我要用代码向我喜欢的女孩表白 · 2022-07-26 10:21:23 发布

Hive我们用来搭建数仓，对于大量数据以及离线数仓，可以满足，但是

他不能满足实时查询的情况，如果这次客户来了个需求，不在我们统计分析的指标内。

那你单独写SQL，然后通过mr底层，就不能立刻出结果，运行sql和统计将消耗大量时间。

当然有多种方案（impala+kudu)(presto)都可以。我在CDH上使用，自己的虚拟机测试，避免搭建与启动内存过大，所以采用了spark。

前提：CDH已经搭建完毕，并且有hive和spark

设置hive的计算引擎为spark

apache hadoop（原生）：

1、配置mapreduce计算引擎
set hive.execution.engine=mr;
2、配置tez计算引擎
set hive.execution.engine=tez;
3、配置spark计算引擎
set hive.execution.engine=spark;

但是在cdh中，我们直接通过其中的配置，执行

cdh执行

打开hive配置

不用执行，你选择了spark和yarn他就默认是spark作为计算引擎

华为开发者空间

华为开发者空间，是为全球开发者打造的专属开发空间，汇聚了华为优质开发资源及工具，致力于让每一位开发者拥有一台云主机，基于华为根生态开发、创新。

更多推荐

cover

GaussDB高智能--库内AI引擎：模型管理&数据集管理

华为开发者空间

cover

领取云主机，带你基于PyTorch构建高效手写体识别系统

华为开发者空间

cover

华为云数据库斯享会走进贵阳，与贵州企业携手共绘数智蓝图

华为开发者空间

所有评论(0)

查看更多评论

我要用代码向我喜欢的女孩表白

已为社区贡献16条内容