Hbase基本概念

一、Hbase介绍二、HBase 的特点是什么？三、Hbase的存储结构四、HBase 读写流程？五、HBase表的数据模型六. 热点现象（数据倾斜）怎么产生的，以及解决方法有哪些七、HBase的 rowkey 设计原则八、HBase的列簇设计九、简述 HBase 中 compact 用途是什么，什么时候触发，分为哪两种，有什么区别，有哪些相关配置参数？

李大寶

5553人浏览 · 2022-09-03 12:17:49

李大寶 · 2022-09-03 12:17:49 发布

一、Hbase介绍

1) Hbase一个分布式的基于列式存储的数据库,基于Hadoop的hdfs存储，zookeeper进行管理。
(2) Hbase适合存储半结构化或非结构化数据，对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。
(3) Hbase为null的记录不会被存储.
(4)基于的表包含rowkey，时间戳，和列族。新写入数据时，时间戳更新，同时可以查询到以前的版本.
(5) hbase是主从架构。hmaster作为主节点，hregionserver作为从节点。

二、HBase 的特点是什么？

1）大：一个表可以有数十亿行，上百万列；
2）无模式：每行都有一个可排序的主键和任意多的列，列可以根据需要动态的增加，同一
张表中不同的行可以有截然不同的列；
3）面向列：面向列（族）的存储和权限控制，列（族）独立检索；
4）稀疏：空（null）列并不占用存储空间，表可以设计的非常稀疏；
5）数据多版本：每个单元中的数据可以有多个版本，默认情况下版本号自动分配，是单元
格插入时的时间戳；
6）数据类型单一：Hbase 中的数据都是字符串，没有类型。

三、Hbase的存储结构

Hbase 中的每张表都通过行键(rowkey)按照一定的范围被分割成多个子表（HRegion），默认一个HRegion 超过256M 就要被分割成两个，由HRegionServer管理，管理哪些 HRegion 由 Hmaster 分配。HRegion 存取一个子表时，会创建一个 HRegion 对象，然后对表的每个列族（Column Family）创建一个 store 实例，

每个store 又由一个MemStore和0至多个StoreFile组成，每个 StoreFile 都会对应一个HFile，HFile 就是实际的存储文件

HRegion是HBase中分布式存储和负载均衡的最小单元。最小单元就表示不同的HRegion可以分布在不同的HRegion server上。
客户端检索数据，先在MemStore找，找不到再找StoreFile
MemStore即内存级缓存，MemStore存放在store中，用于保存修改的数据，当MemStore存储达到一个阈值（默认128M）时，数据就会被执行flush操作，将数据写入StoreFile文件
StoreFile底层是以HFile的格式保存在HDFS上的。HBase中的键值对类型的数据以HFile文件存储格式进行存储
HLog预写日志文件，当Hbase读写数据时候，数据不是直接写入磁盘，而是会在内存中保存一段时间，此时数据很容易丢失，如果数据写入日志文件中，然后在写入内存，一旦系统出现故障，可以通过这个日志文件恢复

四、HBase 读写流程？

读：
① HRegionServer 保存着表的元数据以及表数据，要访问表数据，首先客户端先去访问zookeeper，从 zookeeper 里面获取 meta 表所在的位置信息，即找到这个 meta 表在哪个HRegionServer 上保存着。
② 接着客户端通过刚才获取到的 HRegionServer 的 IP 来访问 Meta 表所在的HRegionServer（HBase从节点），从而读取到 Meta，进而获取到 Meta 表中存放的元数据。
③客户端通过元数据中存储的信息，访问对应的 HRegionServer，然后扫描所在HRegionServer 的 Memstore（内存级缓存）和 Storefile 来查询数据。
④ 最后 HRegionServer 把查询到的数据响应给客户端。

写：
① 客户端先访问 zookeeper，找到 Meta 表，并获取 Meta 表元数据。
② 确定当前将要写入的数据所对应的 HRegion 和 HRegionServer 服务器。
③客户端向该 HRegionServer 服务器发起写入数据请求，然后 HRegionServer 收到请求
并响应。

④ Client 先把数据写入到 HLog，以防止数据丢失。
⑤ 然后将数据写入到 Memstore。
⑥ 如果 HLog 和 Memstore 均写入成功，则这条数据写入成功
⑦ 如果 Memstore 达到阈值，会把 Memstore 中的数据 flush 到 Storefile 中。
⑧ 当 Storefile 越来越多，会触发 Compact 合并操作，把过多的 Storefile 合并成一个大
的 Storefile。
⑨ 当 Storefile 越来越大，Region 也会越来越大，达到阈值后，会触发 Split 操作，将
Region 一分为二。

五、HBase表的数据模型

HBase表的数据模型主要概念包括rowkey、Column Family、Column、Timestamp。

1. rowkey行键

每个hbase表中只有一个行键，它在hbase中以字典表的形式存储。

2. Column Family列族

被称为列族或列簇，由很多列组成
HBase表中的每个列，都归属与某个列族
列族是表的schema的一部分(而列不是)，即建表时至少指定一个列族
比如创建一张表，名为user，有两个列族，分别是userInfo和addressInfo，建表语句create 'user', 'userInfo', 'addressInfo'

3.Timestamp（时间戳）：纪录每次操作数据的时间，通常作为数据的版本号

六. 热点现象（数据倾斜）怎么产生的，以及解决方法有哪些

热点现象：

某个小的时段内，对HBase的读写请求集中到极少数的Region上，导致这些region所在的RegionServer处理请求量骤增，负载量明显偏大，而其他的RgionServer明显空闲。

热点现象出现的原因：

HBase中的行是按照rowkey的字典顺序排序的，这种设计优化了scan操作，可以将相关的行以及会被一起读取的行存取在临近位置，便于scan。然而糟糕的rowkey设计是热点的源头。

热点发生在大量的client直接访问集群的一个或极少数个节点（访问可能是读，写或者其他操作）。大量访问会使热点region所在的单个机器超出自身承受能力，引起性能下降甚至region不可用，这也会影响同一个RegionServer上的其他region，由于主机无法服务其他region的请求。

热点现象解决办法：

为了避免写热点，设计rowkey使得不同行在同一个region，但是在更多数据情况下，数据应该被写入集群的多个region，而不是一个。常见的方法有以下这些：

加盐：在rowkey的前面增加随机数，使得它和之前的rowkey的开头不同。分配的前缀种类数量应该和你想使用数据分散到不同的region的数量一致。加盐之后的rowkey就会根据随机生成的前缀分散到各个region上，以避免热点。
哈希：哈希可以使负载分散到整个集群，但是读却是可以预测的。使用确定的哈希可以让客户端重构完整的rowkey，可以使用get操作准确获取某一个行数据
反转：第三种防止热点的方法时反转固定长度或者数字格式的rowkey。这样可以使得rowkey中经常改变的部分（最没有意义的部分）放在前面。这样可以有效的随机rowkey，但是牺牲了rowkey的有序性。反转rowkey的例子以手机号为rowkey，可以将手机号反转后的字符串作为rowkey，这样的就避免了以手机号那样比较固定开头导致热点问题
时间戳反转：一个常见的数据处理问题是快速获取数据的最近版本，使用反转的时间戳作为rowkey的一部分对这个问题十分有用，可以用 Long.Max_Value - timestamp 追加到key的末尾，例如[key][reverse_timestamp],[key]的最新值可以通过scan [key]获得[key]的第一条记录，因为HBase中rowkey是有序的，第一条记录是最后录入的数据。
- 比如需要保存一个用户的操作记录，按照操作时间倒序排序，在设计rowkey的时候，可以这样设计[userId反转] [Long.Max_Value - timestamp]，在查询用户的所有操作记录数据的时候，直接指定反转后的userId，startRow是[userId反转][000000000000],stopRow是[userId反转][Long.Max_Value - timestamp]
- 如果需要查询某段时间的操作记录，startRow是[user反转][Long.Max_Value - 起始时间]，stopRow是[userId反转][Long.Max_Value - 结束时间]
HBase建表预分区：创建HBase表时，就预先根据可能的RowKey划分出多个region而不是默认的一个，从而可以将后续的读写操作负载均衡到不同的region上，避免热点现象。

七、HBase的 rowkey 设计原则

长度原则：100字节以内，8的倍数最好，可能的情况下越短越好

散列原则：高位散列，低位时间字段。避免热点问题。

唯一原则：必须在设计上保证其唯一性。

八、HBase的列簇设计

列簇尽量少，最好不超过3个。因为每个列簇是存在一个独立的HFile里的，flush和compaction操作都是针对一个Region进行的，当一个列簇的数据很多需要flush的时候，其它列簇即使数据很少也需要flush，这样就产生的大量不必要的io操作。
在多列簇的情况下，注意各列簇数据的数量级要一致。如果两个列簇的数量级相差太大，会使数量级少的列簇的数据扫描效率低下。
将经常查询和不经常查询的数据放到不同的列簇。

九、简述 HBase 中 compact 用途是什么，什么时候触发，分为哪两种，有什么区别，有哪些相关配置参数？

在 hbase 中每当有 memstore 数据 flush 到磁盘之后，就形成一个 storefile，当 storeFile的数量达到一定程度后，就需要将 storefile 文件来进行 compaction 操作。
Compact 的作用：
① 合并文件
② 清除过期，多余版本的数据
③ 提高读写数据的效率
HBase 中实现了两种 compaction 的方式：minor and major. 这两种 compaction 方式的
区别是：
1、Minor 操作只用来做部分文件的合并操作以及包括 minVersion=0 并且设置 ttl 的过
期版本清理，不做任何删除数据、多版本数据的清理工作。
2、Major 操作是对 Region 下的 HStore 下的所有 StoreFile 执行合并操作，最终的结果
是整理合并出一个文件。