数仓的一些重要知识,数据域、业务过程、度量、指标、维度、命名规则

一、规范定义

规范定义指以维度建模作为里理论基础,构建总线矩阵,划分和定义数据域、业务过程、维度、度量、原子指标、修饰类型、修饰词、时间周期、派生指标

专有名词:

  1. 数据域:指面向业务,讲业务过程或者维度进行抽象的集合。其中,业务过程可以概括位一个个不可拆分的行为事件,在业务过程之下,可以定义指标,维度是指度量的环境,如买家下单事件,买家是维度,为保障整个体系的生命力,数据域是需要抽象提炼,并且长期维护和更新的,但不宜轻易变动,在划分数据域时,既能涵盖当前所有的业务需求,又能在新业务进入时无影响的被包含进已有的数据域中和扩展新的数据域
  2. 业务过程:指企业的业务活动事件如下单、支付、退款等都是业务过程,请注意业务过程是一个不可拆分的行为事件,通俗的讲业务过程就是企业活动中的事件
  3. 时间周期:用来明确数据统计的时间范围或者时间点,如最近30天自然周、截至当日等
  4. 修饰类型:是对修饰词的一种抽象划分,修饰类型从属于某个业务,如日志域的访问终端类型涵盖无线端,PC端等修饰词
  5. 修饰词:指除了统计维度以外,指标的业务场景限定,抽象修饰词隶属于一种修饰类型,如在日志域的访问终端类型下,有修饰词PC端,无线端的
  6. 度量/原子指标:原子指标和度量含义相同,基于某一业务事件行为下的度量是业务定义中不可再拆分的指标,具有明确业务含义的名词,如支付金额
  7. 维度:维度是杜良的环境,用来反映业务的一类属性,这类属性的集合,构成了一个维度,也可以称为实体对象,维度属于一个数据域,如地理维度,时间维度
  8. 维度属性:维度属性隶属于一个维度,如地理维度里边的国家名称,国家ID省份名称等都属于维度属性
  9. 派生指标,派生指标等于一个原子指标,加多个修饰词,加时间周期。可以理解为对源自指标业务统计范围的圈定,如原子指标为支付金额,最近一天海外买家支付金额作为派生指标,最近一天为时间周期,海外为修饰词,买家为维度,而不做修饰词

二、指标体系

原子指标、派生指标、修饰类型、修饰词、时间周期

基本原则

派生指标由原子指标、时间周期修饰词、若干其他修饰词组合得到

派生真值表可以选择多个修饰词,修饰词之间的关系为“或” 或者 “且”,由具体的派生指标语义决定。

派生指标唯一归属一个原子指标,继承原子指标的数据域,与修饰词的数据域无关

命名规则

命名所用的属于。指标命名,尽量使用英文简写,其次是英文,当指标英文名太长时,可以考虑汉语拼音首字母命名。如中国制造,zgzz。

业务过程:英文名,用英文或英文简写或中文拼音简写;中文名:具体业务过程在中文即可

关于存量型指标对应的业务过程的约定:实体对象英文名+stock。如在线会员数、一星会员等,其对应的业务过程为mbr_stock。

原子指标:英文名:动作+度量;中文名:动作+度量。原子指标必须挂靠在某个业务过程下。

修饰词:只有时间周期才会有英文名,且长度为2位,加上"_" 为3位

派生指标:英文名:原子指标英文名+时间周期修饰词+序号;中文名:时间周期修饰词+[其他修饰词] + 原子指标

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐