一、什么是数据治理?为什么要做数据治理?

数据治理可以理解为对杂乱、无规范数据的治理,目的就是为了让数据有序,就像是秦始皇统一度量衡一样,“车同轨,书同文“就是最早的一项数据治理工作。治理好了有什么用?能够方便系统间的集成,能够对企业数据统一管理,能够支持报表、数据分析、数据挖掘等数据应用。现在的数据治理工作包含了数据标准管理、数据模型管理、元数据管理、主数据管理、数据质量管理、数据安全管理、数据生命周期管理等内容。数据标准是数据治理的一项基础工作内容,数据模型依赖于数据标准用于指导数据开发工作,而数据质量也依赖于数据标准,需要根据数据标准进行各项数据质量的筛查。元数据是数据治理工作的核心和基础,它就像是将军手中的地图,能够快速掌握各个数据表的所在,以及使用情况、流向情况。主数据是一个企业中和核心基础数据,能够支撑系统跨部门、跨系统的数据融合应用。

1、数据标准

什么是数据标准?
数据标准工作是数据治理中重要的基础性工作,可以定义为:是对数据的表达、格式及定义的一致约定,包括数据的业务属性、技术属性和管理属性的统一定义。
DCMM中将数据标准分为了:业务术语标准、参考数据和主数据、数据元标准、指标数据标准。

为什么要做数据标准?
为了使组织外部使用和交换的数据是一致的、准确的。

2、数据模型

什么是数据模型?
数据模型是指对现实世界数据特征的抽象,用于描述一组数据的概念和定义。

为什么要做数据模型?
为了解决架构设计和数据开发不一致,而对数据开发中的表名、字段名等规范进行约束。数据模型在数据标准和数据开发之间起到一个承上启下的作用,即数据模型需要依赖数据标准指导数据开发中的表名、字段名等标准规范的落地。

3、元数据

什么是元数据?
元数据是数据治理工作的核心和基础。 元数据可以理解为表的户口簿,包括了:表名、表别名、表的所有者、主键、索引、表中的字段、表间关系等。

为什么要做元数据?
目的是建立一个数据的全景图,有了数据全景图,就可以知道有哪些种类的数据;有哪些信息系统、数据库、表、字段;数据全量是多少,增量是多少;数据分布情况;数据间流向关系等等。

4、主数据

什么是主数据?
主数据是用来描述企业核心业务实体的数据,是企业核心业务对象、交易业务的执行主体,是在整个价值链上被重复、共享应用于多个业务流程的、跨越各个业务部门和系统的、高价值的基础数据,是各业务应用和各系统之间进行数据交互的基础。
主数据举例:组织单元、客户、员工、金融产品等。

为什么需要建设主数据?
不同的应用系统之间,主数据的定义、属性编码存在众多不一致,影响了系统和数据之间的融合与集成。

5、数据质量管理

数据质量?
准确性:描述数据是否与对应客观实体的特征一致。
完整性:表中是否存在缺失记录,记录中是否存在缺失字段。
一致性:描述同一实体同一属性的值在不同的系统中是否一致。
有效性:描述数据是否满足用户定义的条件或在一定的取值范围内。
唯一性:描述数据是否存在重复记录
及时性:数据的产生和供应是否及时。
稳定性:描述数据的波动是否稳定,是否在有效范围内。
连续性:描述数据的编号是否连续
合理性:描述两个字段之间的逻辑关系是否合理。

为什么要进行数据质量的工作?
为了让报表、分析、应用更加准确。

二、怎样做数据治理

制定数据标准是开展数据治理工作的前提和基础。 做数据质量检查时,参考的规则就来自于数据标准,做数据清洗时参考的清洗规则也来自于数据标准。数据标准要根据企业要求及业务变化进行实时更新。

数据治理工作的开展,需要成熟软件平台的支撑,如数据质量管理系统、元数据管理系统、数据标准管理系统、数据安全管控平台、数据资产中心。

数据治理是一项长期的工作,面对复杂的系统现状,需要整体规划,分步实施,突出重点,逐步推广。可以从业务最关心的数据、最重要的数据入手,逐步推广。

参考文章
[1] 数据中台:让数据用起来

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐