一、数据集市简介

在数据仓库环境中用于检索客户端数据的模式称为数据集市。它是数据仓库特有的结构,供团队中的业务领域使用。每个组织都有一个位于数据仓库存储库中的数据集市。不同类型的数据集市是从属的、独立的和混合的数据集市。从属数据集市获取已经创建的数据,而独立数据集市从外部源和数据仓库获取数据。我们可以将数据集市称为数据仓库的逻辑子集。

1.1、数据集市与数据仓库

数据仓库是一个包含来自多个主题流的数据集合的仓库。维护和控制部分,如原始数据的收集和处理,主要由企业信息技术 IT 小组处理,该小组为上级组织提供各种服务。

数据仓库也称为中央或企业数据仓库。因此,在某些情况下,数据仓库的来源将是多个,而数据集市是数据仓库的一个子集。

二、数据集市的类型

在这里插入图片描述

2.1. 依赖数据仓库

依赖数据集市纯粹来自数据仓库,所有分组的依赖将形成企业数据仓库。它纯粹是数据仓库的一个子集,因为它是从中央 DW 创建的。

由于中央数据仓库 ETT 流程或提取转换和传输中已经存在干净和汇总的数据,因此简化了。我们只需要在这里识别特定的子集并在其上执行 ETT。

这些数据集市通常旨在通过更好的控制和效率实现更好的可用性和大量改进的性能

2.2. 独立数据集市

这不是从中央数据仓库创建的,其来源可能不同。由于数据来自中央 DW 之外的其他 ETT 过程有点不同。

大多数独立数据集市被较小的组织使用,其来源也有限。当我们需要在相对较短的时间内获得解决方案时,通常会创建独立数据集市。

2.3. 混合数据集市

混合数据集市将允许您将来自中央数据仓库 DW 以外的所有其他来源的数据分组。当我们处理临时集成时,这将大大有利于外部添加到组织的所有产品的顶级工作。

三、数据集市的特点

以下是一些功能:

  • 由于数据源集中于主体,因此通过使用它可以提高用户响应时间。
  • 对于经常需要的数据,使用数据集市将是有益的,因为它是中央 DW 的子集,因此数据大小会更小。
  • 此外,由于数据量有限,与中央 Dws 相比,处理时间将大大减少。
  • 这些基本上是敏捷的,与数据仓库相比,可以非常快速有效地适应模型中的变化。
  • 与仓库数据相比,Datamart 需要单个主题专家来处理我们在多个主题仓库中所需的专业知识。正因为如此,我们说数据集市更敏捷。
  • 我们可以使用分区数据和数据集市将访问类别隔离到较低级别,这很容易。
  • 基础设施依赖性非常有限,数据可以在分段后存储在不同的硬件平台上。

四、数据集市的优点

  • 对于您只需要处理一小部分数据的数据仓库,它是最具成本效益的替代方案之一。
  • 从源中分离数据将使数据集市高效,因为特定的一组人可以处理来自特定源的数据,而不是所有人都使用数据仓库。
  • 如果我们知道需要访问哪个子集,则可以使用数据集市更快地访问数据。
  • 数据集市更易于使用,因此最终用户可以轻松地对其进行查询。
  • 由于数据是按组隔离的,因此与数据仓库相比,进入实施时间数据集市所需的时间更少。
  • 来自特定主题的历史数据可用于轻松的趋势分析。

因为它集中在一个单一的功能领域,所以对流程实施者和最终用户都有许多好处。因此,需要高效的集市实施以及组织中的数据仓库。

五、实施数据集市的步骤

在这里插入图片描述

  1. 设计
    这将是实施的第一步,其中确定了收集技术和业务信息所需的所有任务和来源。稍后实施逻辑计划,经过审查,这将转换为物理计划。此外,这里决定了数据的逻辑和物理结构,例如如何分区数据和分区字段,如日期或任何其他文件。

  2. 施工
    这是实施的第二个阶段,在 RDBMS 的帮助下生成物理数据库,被确定为设计过程和逻辑结构的一部分。创建所有对象,如schema、索引、表、视图等。

  3. 填充
    这是第三阶段,这里在获取数据时将数据填充到其中。所有必需的转换都在填充数据之前实现。

  4. 访问
    这是实施的下一步,我们将使用填充的数据进行查询以创建报告。最终用户使用此步骤来了解使用查询的数据。

  5. 管理
    这是数据集市实施的最后阶段,这里处理各种任务,例如访问管理、系统优化以及调整、管理和向数据集市添加新数据以及规划恢复场景以处理任何故障情况。

关注我的公众号【宝哥大数据】,更多干货

在这里插入图片描述

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐