建立数据库模型：从业务模型、概念模型到逻辑模型

在上一集中，我们从业务场景出发，定义业务问题后，形成了具体的数据库赋能业务的框架。接下来的这一集，就是把此前的目标，转为数据需求。那如何把业务问题转为数据需求？那就是今天要讨论的数据建模。本文通过黄金思维圈（what-why-how）的逻辑来呈现。（为了与数据分析场景中建模的概念区分，本文的数据建模可以理解为数据库建模。）数据建模是什么？数据建模是一个过程，是对业务现实各类数据进行抽象组织后，确

饼干哥哥数据分析

7754人浏览 · 2022-03-05 08:58:33

饼干哥哥数据分析 · 2022-03-05 08:58:33 发布

在上一集中，我们从业务场景出发，定义业务问题后，形成了具体的数据库赋能业务的框架。接下来的这一集，就是把此前的目标，转为数据需求。那如何把业务问题转为数据需求？那就是今天要讨论的数据建模。

本文通过黄金思维圈（what-why-how）的逻辑来呈现。

（为了与数据分析场景中建模的概念区分，本文的数据建模可以理解为数据库建模。）

数据建模是什么？

数据建模是一个过程，是对业务现实各类数据进行抽象组织后，确定数据库范围、数据组织形式及实现数据库开发的过程；这个过程中，需要对具体业务场景进行分析形成业务模型，基于此抽象出划分数据域的概念模型，基于此明确实体以及各实体之间关系，形成逻辑模型，最后形成用于建立数据库实体的物理模型。

简单来说，数据建模是把业务现实映射到数字逻辑的过程，是从具体到抽象，再到具体的过程。

为什么要建模？

数据建模其实是一个逻辑严谨的过程。为什么不能直接把做报表的数据源导入数据库就交差，而是要进行复杂的建模？

帮助梳理业务流程：数据中心是服务业务，其数据逻辑也应该反映业务现实，通过数据建模可以确保这种映射关系的有效性
建立全方位的数据视角，统一业务逻辑：之所以叫数据中心，就是因为服务的不止是一个部门，而是把多个业务单元的数据汇总，而背后是打通业务逻辑，所以需要建立全方位的数据视角来完成这件事，否则容易陷入到无尽的临时需求里。
减少建设过程中的“不确定”：在做决策过程中，经常会遇到这个数据要不要？要不要新建某个表？的问题。数据建模的过程就是解决问题的框架，
确保最终落地的数据中心能支撑业务发展

如何建模？

建立业务模型
业务场景既是数据工作的起点，又是数据工作最终赋能的落地点。
所以数据建模的第一步就是要梳理业务流程，明确业务目标，进而抽象出公司整体的业务模型。
这一步的目的是为后面步骤提供明确的业务逻辑。
建立概念模型
将业务场景抽象成概念模型
建立逻辑模型
将概念落地，建立具体的表间逻辑关系
建立物理模型
按数据库语法建立物理模型，即可形成数据库

业务模型

业务模型是对业务层面的分解和程序化，为了达到这个目的需要先对业务流程进行梳理。
那要如何做？可以借助点线面的思考逻辑。链接：如何建立业务模型深入理解业务

公司层「面」：划分业务单元（可按业务部门划分），及梳理业务部门之间的协作关系。
业务「线」：深入了解部门内的具体业务流程，并将其程序化
节「点」：关注流程每个节点，数据点

业务流程

此次案例中，虽然服务的对象是用户运营部门，产品部门，但是还是从公司层面的核心业务出发，才能窥探全局。所以借助零售行业的人货场模型，对业务流程进行梳理，产出下图。

明确目标：分析主题与指标定义

开篇：从零建立赋能业务的数据中心「逻辑框架」
从业务流程的梳理到业务模型的建立，是为了深入理解业务。回到建立数据库模型的场景中，在了解业务阶段，还需要进一步明确此次建模的目的：分析主题与指标定义。

用户分析

目标是通过建立「RFM模型」对人群进行分层，并形成不同人群的营销策略。

RFM建模逻辑：

数据清洗
RFM阈值定义
用户RFM指标计算
打上RFM标签
分组统计

指标定义：

计算周期范围：近两年
R：最近消费日期与当前距离（单位：日）
F：累计消费频次
M：累计消费金额

产品分析

明确需求是要对新品做「存销分析」，即综合库存和销售情况来判断新品表现，进而调整生产及库存计划。

分析逻辑：

看库存数量：后续分析占比、比值类型指标时，需要参考绝对值，比如计算周转时，库存基数太小，比值就没有意义
看商品周转率，即是指商品从入库到售出所经过的时间和效率。衡量商品周转水平的最主要指标是：周转次数和周转天数
实行简单策略：对于高周转产品，及时补货; 对于低周转产品，及时清仓。

指标定义：

统计周期：存销比一般以月为单位考核比较有意义。存销比可以以数量为单位，也可以以金额为单位。
新品定义：上架日期至今三个月以内
周转次数=销售额/平均库存额，平均库存=（期初库存+期末库存）/2
周转天数：库存周转一次所需的天数，周转天数=365/周转次数。
售罄率=期间销售数量/进货数量，金额计算亦可。单独看意义不大，要配合配货量

概念模型

在上一阶段，我们从业务场景中明确了分析主题，接下来就需要围绕着分析主题进行概念模型建模。
概念数据模型是数据库概念和实体之间的关系的有组织的视图。创建概念数据模型的目的是建立实体，实体的属性和关系。

为什么需要概念模型？

概念模型的一个重要作用的就是划分数据库范围，也就是回答数据库项目要做到什么程度的问题。
概念模型好比是中学学习物理时的极限思维，抓主要矛盾：光滑的平面、真空自由落体等，这些条件在现实是很难实现，但是可以帮助解决物理问题。同样，在数据库建模中，概念模型着重表达清楚实体和实体之间的关系，包括描述重要的属性，而选择忽略干扰判断的过多细节。

如何建立概念模型？

抽取关键业务概念，并将之抽象化。
将业务概念分组，按照业务主线聚合类似的分组概念。
理清分组概念之间的关联，形成完整的领域概念模型。
借用ER实体模型工具来表达实体间的关系

主题域/数据域

第三步中，对业务进行领域划分，形成主题域，或者说数据域。
划分方法主要有：按系统分、按业务部门分、按业务分析需求划分，这里，我们的目的是建立分析性数据库赋能业务，所以我们选择按业务分析需求来划分。
下表是基于业务场景划分的数据域：

ER实体模型

定义数据域后，则要进一步明确域内不同数据之间的关系(表间关系)，为了更好地描述它们，可以借助ER实体模型工具，也就是步骤中的第四步。

什么是ER

数据系统中，将事物抽象为实体(Entity)、关系(Relationship)、属性来表示数据关联和事物的描述，这种对数据的抽象建模通常被称为ER实体关系模型

实体：参与到业务过程中的客观存在，比如会员、订单、商品
属性：对实体的描述，比如名称、尺寸
关系：实体与实体之间的联系，比如会员购买商品
实体与实体之间的对应关系：

一对一：比如人和身份证之间，每个人只有一张身份证，而一个身份证也只对应一个人；比如会员号和手机号码，（一般来说）每个会员只有一个手机号，而一个手机号只对应一个会员
一对多：比如学生和班级之间，每个学生只属于一个班级，但是一个班级有多个学生；比如商品号和SKU之间，每个SKU只有一个商品号，但是一个商品号有多个SKU
多对多：比如学生和课程之间，每个学生都可以选择多个课程，一个课程也有多个学生；比如会员和商品号之间，每个会员可以买多个商品号，一个商品号可以对应多个会员