弄清Doris/StarRocks分区partition by和分桶distributed by的区别，以及如何选择对应的字段

选择分区键选择合理的分区键可以有效的裁剪扫描的数据量。目前仅支持分区键的数据类型为日期和整数类型。在实际业务场景中，一般从数据管理的角度选择分区键，常见的分区键为时间或者区域。按照分区键划分数据后，单个分区原始数据量建议不要超过 100 GB。选择分桶键选择高基数的列（例如唯一 ID）来作为分桶键，可以保证数据在各个分桶中尽可能均衡。如果数据倾斜情况严重，您可以使用多个列作为数据的分桶键，但是不建

select小菜鸡

7393人浏览 · 2022-08-11 10:53:15

select小菜鸡 · 2022-08-11 10:53:15 发布

一、首先，我们先弄清楚数据表中的数据是怎么分布的

数据分布

建表时，您需要通过设置分区和分桶，指定数据分布方式，并且建议您合理设置分区和分桶，实现数据均匀的分布。数据分布是指数据划分为子集，并按一定规则均衡地分布在不同节点上，能够有效裁剪数据扫描量，最大限度地利用集群的并发性能，从而提升查询性能。

数据分布概览

常见的数据分布方式

现代分布式数据库中，常见的数据分布方式有如下四种：Round-Robin、Range、List 和 Hash。如下图所示:

Round-Robin：以轮询的方式把数据逐个放置在相邻节点上。
Range：按区间进行数据分布。如上图所示，区间 [1-3]、[4-6] 分别对应不同的范围 (Range)。
List：直接基于离散的各个取值做数据分布，性别、省份等数据就满足这种离散的特性。每个离散值会映射到一个节点上，多个不同的取值可能也会映射到相同节点上。
Hash：通过哈希函数把数据映射到不同节点上。

为了更灵活地划分数据，除了单独采用上述四种数据分布方式之一以外，您还可以根据具体的业务场景需求组合使用这些数据分布方式。常见的组合方式有 Hash+Hash、Range+Hash、Hash+List。

StarRocks 的数据分布方式

StarRocks 支持如下两种数据分布方式：

Hash 数据分布方式：一张表为一个分区，分区按照分桶键和分桶数量进一步进行数据划分。
Range+Hash 数据分布方式：一张表拆分成多个分区，每个分区按照分桶键和分桶数量进一步进行数据划分。

采用 Hash 分布的建表语句如下，其中分桶键为 site_id：

CREATE TABLE site_access(
site_id INT DEFAULT '10',
city_code SMALLINT,
user_name VARCHAR(32) DEFAULT '',
pv BIGINT SUM DEFAULT '0'
)
AGGREGATE KEY(site_id, city_code, user_name)
DISTRIBUTED BY HASH(site_id) BUCKETS 10;

采用Range+Hash组合分布的建表语句如下，其中分区键为 event_day，分桶键为 site_id：

CREATE TABLE site_access(
event_day DATE,
site_id INT DEFAULT '10',
city_code VARCHAR(100),
user_name VARCHAR(32) DEFAULT '',
pv BIGINT SUM DEFAULT '0'
)
AGGREGATE KEY(event_day, site_id, city_code, user_name)
PARTITION BY RANGE(event_day)
(
PARTITION p1 VALUES LESS THAN ("2020-01-31"),
PARTITION p2 VALUES LESS THAN ("2020-02-29"),
PARTITION p3 VALUES LESS THAN ("2020-03-31")
)
DISTRIBUTED BY HASH(site_id) BUCKETS 10;

二、分区和分桶的作用

分区

分区⽤于将数据划分成不同的区间。分区的主要作⽤是将⼀张表按照分区键拆分成不同的管理单元，针对每⼀个管理单元选择相应的存储策略，⽐如副本数、冷热策略和存储介质等等。StarRocks 支持在一个集群内使用多种存储介质，您可以将新数据所在分区放在 SSD 盘上，利用 SSD 的优秀的随机读写性能来提高查询性能，将旧数据存放在 SATA 盘上，以节省数据存储的成本。

业务系统中⼀般会选择根据时间进⾏分区，以优化⼤量删除过期数据带来的性能问题，同时也⽅便冷热数据分级存储。

StarRocks 支持动态分区。您可以按需为新数据动态创建分区，同时 StarRocks 会⾃动删除过期分区，从而确保数据的实效性，实现对分区的⽣命周期管理（Time to Life，简称 “TTL”），⼤幅减少运维管理的成本。

StarRocks 还支持批量创建分区。

分桶

分区的下⼀级是分桶，StarRocks 采⽤ Hash 算法作为分桶算法。在同⼀分区内，分桶键哈希值相同的数据形成 Tablet，Tablet 以多副本冗余的形式存储，是数据均衡和恢复的最⼩单位。Tablet 的副本由⼀个单独的本地存储引擎管理，数据导⼊和查询最终都下沉到所涉及的 Tablet 副本上。建表时，必须指定分桶键。

三、如何选择分区和分桶字段

选择分区键

选择合理的分区键可以有效的裁剪扫描的数据量。目前仅支持分区键的数据类型为日期和整数类型。在实际业务场景中，一般从数据管理的角度选择分区键，常见的分区键为时间或者区域。按照分区键划分数据后，单个分区原始数据量建议不要超过 100 GB。

选择分桶键

选择高基数的列（例如唯一 ID）来作为分桶键，可以保证数据在各个分桶中尽可能均衡。如果数据倾斜情况严重，您可以使用多个列作为数据的分桶键，但是不建议超过 3 个列。

还是以上述 Range+Hash 组合分布的建表语句为例：

CREATE TABLE site_access(
event_day DATE,
site_id INT DEFAULT '10',
city_code VARCHAR(100),
user_name VARCHAR(32) DEFAULT '',
pv BIGINT SUM DEFAULT '0'
)
AGGREGATE KEY(event_day, site_id, city_code, user_name)
PARTITION BY RANGE(event_day)
(
PARTITION p1 VALUES LESS THAN ("2020-01-31"),
PARTITION p2 VALUES LESS THAN ("2020-02-29"),
PARTITION p3 VALUES LESS THAN ("2020-03-31")
)
DISTRIBUTED BY HASH(site_id) BUCKETS 10;

如上示例中，site_access 表采用 site_id 作为分桶键，其原因在于，针对 site_access 表的查询请求，基本上都以站点（高基数列）作为查询过滤条件。采用 site_id 作为分桶键，可以在查询时裁剪掉大量无关分桶。

如下查询中，10 个分桶中的 9 个分桶被裁减，因而系统只需要扫描 site_access 表中 1/10 的数据：

select sum(pv)
from site_access
where site_id = 54321;

但是如果 site_id 分布十分不均匀，大量的访问数据是关于少数网站的（幂律分布, 二八规则），那么采用上述分桶方式会造成数据分布出现严重的倾斜，进而导致系统局部的性能瓶颈。此时，您需要适当调整分桶的字段，以将数据打散，避免性能问题。例如，可以采用 site_id、city_code 组合作为分桶键，将数据划分得更加均匀。相关建表语句如下：

CREATE TABLE site_access
(
site_id INT DEFAULT '10',
city_code SMALLINT,
user_name VARCHAR(32) DEFAULT '',
pv BIGINT SUM DEFAULT '0'
)
AGGREGATE KEY(site_id, city_code, user_name)
DISTRIBUTED BY HASH(site_id,city_code) BUCKETS 10;

在实际使用中，您可以依据自身的业务特点选择以上两种分桶方式。采用 site_id 的分桶方式对于短查询十分有利，能够减少节点之间的数据交换，提高集群整体性能；采用 site_id、city_code 的组合分桶方式对于长查询有利，能够利用分布式集群的整体并发性能。

说明：

短查询是指扫描数据量不大、单机就能完成扫描的查询。

长查询是指扫描数据量大、多机并行扫描能显著提升性能的查询。

确定分桶数量

在 StarRocks 中，分桶是实际物理文件组织的单元，分桶数量会影响查询的并行度。您需要设置合理的分桶数量，确保分桶数据压缩（压缩方式 LZ4）写入磁盘后，占用合理的磁盘资源。建议压缩后磁盘上每个分桶数据文件大小在 100 MB 至 1 GB 左右。

注意：不支持修改已创建的分区的分桶数量，支持在增加分区时为新增分区设置新的分桶数量。

此外，建议根据集群规模的变化，建表时调整分桶数量。集群规模变化，主要指节点数目的变化。假设您有 1 台机器，20 GB 原始数据，那么可以建 10 个分桶（压缩前每个 Tablet 大小 2 GB，压缩后可能在 200 MB - 500 MB）。但是如果您有20台机器，那么可以适当再缩小每个分桶的数据量，加大分桶数量。比如分成 40 个分桶，每个 Tablet 的大小压缩前大约为 500 MB，压缩后一般不小于 100 MB。

在机器资源不足的情况下，如果想充分利用机器资源，可以通过如下公式来计算合适的分桶数量：

分桶数量 = BE节点数量 * CPU 核数/2

例如，在将 100 GB 未压缩的 CSV 文件导入 StarRocks 时，使用 4 个 BE 节点，每个 BE 节点所在机器的 CPU 核数为 64，建立一个分区。通过以上公式可以计算出桶数数量为 128。此时，每个 Tablet 的大小为 781 MB，能够充分利用 CPU 资源。