大家好,我是爱踢球的阳仔。 

近期在和同事聊数据的时候,发现很多人对于元数据和主数据的相关概念和作用不是很清晰。

在这里我就结合自身工作经历分享一下对元数据和主数据的理解。

一、什么是元数据?

元数据(Metadata / MADA),为描述数据的数据(data about data)。

定义比较难理解,举个常见的例子:

小红是单位有名的电影粉,作为小红的追求者张三,不懈努力约到小红一起去看新出的电影。为了能够和小红取得深入沟通,张三提前预习了电影故事情节及演员情况。

图片

这里敲黑板:

1. 看电影就看电影,别剧透,剧透没有好下场;

2. 如果把电影看作数据,电影的介绍信息(导演、编剧、主演、上映时间~~~)都是这个数据的元数据。

总之只要能够用来描述某个数据的,都可以认为是元数据。

一般较大的公司都会有专门的元数据管理平台,用来记录数仓中模型的定义、血缘关系、历史版本、 归属者等。有兴趣的同学可以去看看自己公司的元数据包括哪些内容。

二、什么是主数据

主数据(MD Master Data)指系统间共享数据(例如,客户、供应商、账户和组织部门相关数据)。

主数据是关键业务实体的最权威、最准确、价值最大的数据,用于建立交易闭环。

常见的主数据类型:

图片

拿客户主数据来举个例子:

每一个客户在客户主数据里面都有一个唯一标识,这个唯一标识基本不会发生改变。

公司各个业务、系统涉及到客户的数据都采用这个唯一标识,数据分析师通过客户标识在各个系统和业务提取数据进行分析。主数据具有4个主要特征:唯一性、有效性、稳定性、共享性。

运营和维护是主数据建设的关键,确定清洗规则,保证各个业务方、平台数据一致,对主数据扩容支持业务扩展。

图片

运营和维护是主数据建设的关键,确定清洗规则,保证各个业务方、平台数据一致,对主数据扩容支持业务扩展。

以上就是元数据和主数据的介绍。总结一下:

元数据是描述数据的数据,包括存储位置、历史数据、资源查找、文件记录等。

主数据是指系统间共享数据,具有唯一性、有效性、稳定性、共享性。

参考资料:

DAMA数据管理知识体系指南 (清华大学出版社)

基于全生命周期的主数据管理:MDM详解与实践(清华大学出版社)

我是阳仔,欢迎微信搜索【数据三剑客】,关注即可获得一线大厂内推机会和我私藏的技术干货。

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐