数据仓库的分层，你知道吗？

数据仓库的分层，你知道吗？数据仓库更多代表的是一种对数据的管理和使用的方式，它是一整套包括了数据建模、ETL（数据抽取、转换、加载）以及作用调度等在内的完整的理论体系流程。数据仓库在构建过程中通常都需要进行分层处理。业务不同，分层的技术处理手段也不同。分层的主要原因是在管理数据的时候，能对数据有一个更加清晰的掌控。详细来讲，主要有如下几个原因。清晰的数据结构每一个数据分层都有它的作用域，在使用表的

BigDataSam

12330人浏览 · 2021-08-11 18:15:19

BigDataSam · 2021-08-11 18:15:19 发布

数据仓库的分层，你知道吗？

数据仓库更多代表的是一种对数据的管理和使用的方式，它是一整套包括了数据建模、ETL（数据抽取、转换、加载）以及作用调度等在内的完整的理论体系流程。

数据仓库在构建过程中通常都需要进行分层处理。业务不同，分层的技术处理手段也不同。分层的主要原因是在管理数据的时候，能对数据有一个更加清晰的掌控。详细来讲，主要有如下几个原因。

清晰的数据结构
每一个数据分层都有它的作用域，在使用表的时候能更方便地定位和理解。
将复杂的问题简单化
将一个复杂的任务分解成多个步骤来完成，每一层只处理单一的问题，比较简单和容易理解。而且便于维护数据的准确性，当数据出现问题之后，可以不用修复所有的数据，只需要从有问题的地方开始修复。
减少重复开发
规范数据分层，开发一些通用的中间层数据，能够减少极大的重复计算。
屏蔽原始数据的异常
屏蔽业务的影响，不必改一次业务就需要重新接入数据。
数据血缘的追踪
最终给业务呈现的是一个能直接使用业务表，但是它的来源很多，如果有一张来源表出问题了，借助血缘最终能够快速准确地定位到问题，并清楚它的危害范围。

数仓的常见分层一般为三层，即数据操作层、数据仓库层和应用数据层（数据集市层）。当然根据研发人员经验或者业务，可以分为更多不同的层，只要能达到流程清晰、方便查数即可。

下面，通过一张图来展示数据仓库的分层情况，如图所示。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sLJXWgit-1628676838894)(assets/1610957419545.png)]

ODS（Operation Data Store 数据准备区）

数据仓库源头系统的数据表通常会原封不动的存储一份，这称为ODS层，也称为准备区。它们是后续数据仓库层加工数据的来源。ODS层数据的主要来源是业务数据库、埋点日志、其他数据源。

业务数据库：可使用DataX、Sqoop等工具来抽取，每天定时抽取一次；在实时应用中，可用Canal监听MySQL的 Binlog，实时接入变更的数据。
埋点日志：线上系统会打入各种日志，这些日志一般以文件的形式保存，可以用 Flume 定时抽取。
其他数据源：从第三方购买的数据、或是网络爬虫抓取的数据。

DW（Data Warehouse 数据仓库层）

该层包含DWD、DWS、DIM层，由ODS层数据加工而成，主要是完成数据加工与整合，建立一致性的维度，构建可复用的面向分析和统计的明细事实表，以及汇总公共粒度的指标。

DWD（Data Warehouse Detail 细节数据层），是业务层与数据仓库的隔离层。以业务过程作为建模驱动，基于每个具体的业务过程特点，构建细粒度的明细层事实表。可以结合企业的数据使用特点，将明细事实表的某些重要维度属性字段做适当冗余，也即宽表化处理。
DWS（Data Warehouse Service 服务数据层），基于DWD的基础数据，整合汇总成分析某一个主题域的服务数据。以分析的主题为建模驱动，基于上层的应用和产品的指标需求，构建公共粒度的汇总指标事实表。
DIM（公共维度层），基于维度建模理念思想，建立一致性维度。
TMP层：临时层，存放计算过程中临时产生的数据。