目录

一、产品功能介绍

二、dataphin使用介绍

1)dataphin注意事项

2)准备工作

3)规划数仓

4)数据处理以及配置调度

5)任务发布

6)数据抽取以及配置调度


一、产品功能介绍

二、dataphin使用介绍

1)dataphin注意事项

1).dataphin拥有开发/测试环境(XX_XX_XX_DEV)和生产环境(XX_XX_XX),使用Dev-Pord模式,将任务调度配置成功之后,进行发布,然后在发布模块,再次进行发布,该任务就会进入到生产

  2)dataphin将数据分为三层,分别是ODS层、CDM层、ADS层

        ODS层为原始数据层:所有一切的数据(使用到dataphin的数据)都将在这一层,管理员可以分配权限给用户,使用户可以看到自己所需要的数据,权限包括查看权限、数据从ODS到CDM曾的权限都需要通过管理员申请

        CDM层为数据汇总层:主要工作是做数据处理工作,处理完成之后将数据结果推送到ADS层,该层用户只能看到所在板块下的内容以及调度任务(注意:不同项目的调度任务在同一板块,也是可以看到的,eg:某项目在金融板块,看到自己调度任务的同时,也可以看到别的项目的调度任务)

        ADS层为数据应用层:将CDM层处理好的结果数据,配置调度任务抽取到ADS层(需要向超级管理员申请CDM表格的权限)

  3).dataphin拥有抽数取数的功能,可以配置调度,定时抽取数据(需要用户向超级管理员申请所申请表的操作权限)

  4).dataphin创建的表默认为分区表(分区字段默认为DS)

  5).数据开发、数据集成的操作,超级管理员都可以层层把控,用户必须有权限才能进行操作

2)准备工作

  1.  登录MaxCompute控制台,在左上角选择地域。

  2. 在项目管理页签,单击创建项目。
  3. 在创建工作空间面板,配置创建DataWorks工作空间信息后,单击创建项目。

  4. 在创建工作空间面板,配置创建MaxCompute项目信息后,单击确认创建,即可完成MaxCompute项目创建。
     

  5. 创建成功后,即可在项目管理页签查看新创建的MaxCompute项目

3)规划数仓

1.创建业务板块(没创建权限,故以下操作为官网推荐操作)

  1. 登录Dataphin控制台
  2. 在Dataphin控制台页面,选择工作区地域后,单击进入Dataphin>>。
  3. 进入业务板块页面。
    1. 在Dataphin首页,单击顶部菜单栏的规划。
    2. 在规划页面,单击左侧导航栏的业务板块。
  4. 创建业务板块
    1. 在业务板块页面,单击右上方的新建业务板块。
    2. 在新建业务板块对话框,选择Dev-Prod模式后,单击下一步。
    3. 在新建业务板块对话框中,配置参数
    4. 单击确定,完成业务板块(LD_beginner_test和LD_beginner_test_dev)的创建。
  5. 创建交易域。
    1. 在LD_beginner_test业务板块页面,单击页面右侧的新建数据域。
    2. 在新建数据域对话框中,配置参数。

2.创建数据源

1.在规划页面,点击数据源,点击新建数据源

2.在新建数据源对话框中,配置参数,单机测试连接,连接成功之后,点击确定 

3.数据查询

1.点击资产进入地图页面

2.在搜索框模糊搜索表格点击相应的表格,即可查询表格相应内容(可以查看表结构、分区概览、数据预览、产出信息、血缘关系、影响分析、质量报告)

4)数据处理以及配置调度

数据处理主要分为CDM层数据处理和ADS层数据处理,在开发/测试环境任务发布成功之后,会自动发不到生产环境

1.CDM层数据处理

  1)点击研发,进入开发界面

  2)开发页面分为规范建模、数据处理、即席查询三大模块

规范建模主要是创建维度、物理逻辑表、业务逻辑表、原子指标、派生指标等内容

即席查询:(如图所示,可以看到相同板块下面不同操作人员的查询记录)

  点击即席查询,进入如下界面,可以用日常的sql就行查询数据,记忆逻辑处理

数据处理模块 

  1.用户可以在即席查询页面将数据处理逻辑处理好之后,在数据处理模块,进行任务调度

    点击数据处理→左侧列表“+”号(创建文件夹/创建maxcomper sql任务),也可以创建shell脚本

2.在创建好的sql文件中,可以编写sql处理逻辑,如下所示配置调度

  点击调度配置,在右侧列表选择时间属性、是否暂停调度、调度周期(最小粒度为5分钟)、上游依赖(需要管理员为你创建一个空节点作为cdm层的上游节点使用)、下游依赖(处理好的数据-->CDM层的目标表)

5)任务发布

1.如上所示点击右下角的确定保存目前的调度配置

2.点击如图所示的小飞机图标(右上角),提交任务  

  3.点击提交任务之后,会弹出提示框(确保无误之后点击确定即可)

  右上角会弹出该任务的备注信息,填写完毕之后,点击确认并提交

4.点击待发布对象列表,进入代发布对象列表

5.选中该任务名称左边的弹框,点击该任务右侧的发布,弹框会让你确定信息,点击确定即可

6.点击任务发布列表,进入任务发布列表页面,也可以点击该任务右侧的编辑,编辑任务,然后重新配置调度、发布任务

6)数据抽取以及配置调度

1.点击集成进入集成页面进行数据抽取和调度,如下所示:

2.在页面右侧组件库里面可以选择输入、转换、流程、输出等组件,按照自己的需求,完成对数据的抽取和输出工作

图中咱们输入选择maxcomputer、输出选择mysql为例

3.配置输入端maxcomputer

数据源(生产环境下的ADS层数据)、表(ADS层的应用表)、分区(bizdate→昨天、today→今天)

4.配置输出Mysql

数据源(代表创建的输出端的mysql数据源名称)、表(要导出的表名称)、加载策略(覆盖数据、追加数据)

字段映射将输入端和输出端字段映射完毕即可

填写准备语句和填写完成语句可以在准备导数或者导数完毕之后写sql操作导出的数据库表,点击确定即可,如下所示:

5.点击执行或者预览查看配置是否正确,数据是否导出成功(在mysql中查看)

6.配置调度信息,然后进行发布任务(发布任务同上)

 上游依赖(ads层该表的调度任务节点名称)、下游依赖(目前你在创建执行的该任务的节点名称)

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐