数据漂移的概念:
同一业务日期下的数据包含了不属于该业务日期的数据(上一天数据漂移到当天,或者当天数据漂移到下一天)或者缺失了该业务日期数据或该业务日期下的数据非最新
数仓常用4个时间介绍
(1)数据库表中用于记录具体业务过程发生时间的时间戳字段(假设这类字段叫create_time);
(2)数据库表中用来表示数据记录更新时间的时间戳字段(假设这类字段叫update_time);
(3)数据库日志表中用来表示数据记录更新时间的时间戳字段(假设这类字段叫log_time);
(4)标识数据记录被抽取到时间的时间戳字段(假设这类字段叫extract_time);
假设的场景:
一张订单业务表,按照上述某一个时间所对应的日期做分区,每个分区只存当天的数据
可能出现的问题及解决方案:
(1)以create_time抽取数据,用其对应的日期作为分区字段:
由于create_time为业务记录产生的时间,这个分区内只会有产生时刻的数据,对于不同更新策略所产生的问题也不同
①T+1更新:对于分区内所有产生更新的数据,都有1天的延迟,只有在T+2天才会更新T+1分区内的数据,且当天分区中会存在下一天数据,对于实时性及业务应用较高的情况下,影响较大
②H+1更新:若为每个分区覆盖写,每个分区更新的数据都有1小时的延迟,若为只当前时间分区插入,则每个分区更新的数据,不会产生更新
(2)以update_time对应的日期作为分区字段:
无论是T+1还是H+1更新,每个分区内只会有更新时间对应的日期的数,但是每个分区内会存在业务时间跨多天的数据
(3)以log_time对应的日期作为分区字段
对于操作记录表,操作记录是根据操作时间从前至后的,每个分区内会存在业务时间跨多天的数据
(4)工作中不常用
结合目前实际业务需求,工作中使用的方法:
对于有经常变更的业务数据,我们采用的办法是,维护一张同时具有T+1分区(全量)和一个H+1分区(当天更新)的业务表
其中,T+1分区用create_time限制创建时间小于当天的历史全量数据,这样可保证T+1分区皆为历史数据
H+1用update_time抽取更改时间为当天更改及新增全部的数据,这样可保证H+1分区中有变更的数据
在使用中结合历史数据与当天变更数据,以主键为分组用update_time倒序排列,取出每个主键唯一一条记录。
ps.此上为读《阿里巴巴大数据之路》数据漂移的一些浅显理解,并结合实际工作的一些感想,请多多指教~

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐