Hive数据分层（ODS,DW,ADS）

Hive中的数据分层前言这篇文章简单介绍一下hive的数据分层理论上分为三层：ODS数据运营层，DW数据仓库层，ADS数据服务层，数据运营层（ODS）:原始数据：　　ODS：Operation Data Store 数据准备区，也称为贴源层。数据仓库源头系统的数据表通常会原封不动的存储一份，这称为ODS层，是后续数据仓库加工数据的来源。　　ODS层数据的来源方式：　　　　1.业务库 : 经常会使用

上课不要摸鱼酱

7201人浏览 · 2021-10-25 20:03:44

上课不要摸鱼酱 · 2021-10-25 20:03:44 发布

Hive中的数据分层

前言

这篇文章简单介绍一下hive的数据分层

理论上分为三层：ODS数据运营层，DW数据仓库层，ADS数据服务层，

数据运营层（ODS）:原始数据：
　　ODS：Operation Data Store 数据准备区，也称为贴源层。数据仓库源头系统的数据表通常会原封不动的存储一份，这称为ODS层，是后续数据仓库加工数据的来源。
　　ODS层数据的来源方式：
　　　　1.业务库 : 经常会使用sqoop来抽取，例如每天定时抽取一次。实时方面，可以考虑用canal监听mysql的binlog，实时接入即可。
　　　　2.埋点日志 : 日志一般以文件的形式保存，可以选择用flume定时同步可以用spark streaming或者Flink来实时接入
　　　　3.kafka也OK消息队列：即来自ActiveMQ、Kafka的数据等.
数据仓库层（DW）：数据清洗：
　 1. DWD：data warehouse details 细节数据层，是业务层与数据仓库的隔离层。主要对ODS数据层做一些数据清洗和规范化的操作。
数据清洗：去除空值、脏数据、超过极限范围的
　　 2. DWB：data warehouse base 数据基础层，存储的是客观数据，一般用作中间层，可以认为是大量指标的数据层。
　　 3. DWS：data warehouse service 数据服务层，基于DWB上的基础数据，整合汇总成分析某一个主题域的服务数据层，一般是宽表。用于提供后续的业务查询，OLAP分析，数据分发等。
用户行为，轻度聚合
数据服务层/应用层（ADS）：出报表:
　　ADS：applicationData Service应用数据服务，该层主要是提供数据产品和数据分析使用的数据，一般会存储在ES、mysql等系统中供线上系统使用。