数仓知识10：数据库存储的两种方式-行存储和列存储

目前大数据存储主要有两种方案可供选择：行存储（Row-Based）和列存储（Column-Based）。业界对两种方案有许多争持，争论的焦点是：谁能够更有效地处理海量数据，且兼顾安全、可靠、完整性。

维克先生

5103人浏览 · 2022-06-19 18:24:36

维克先生 · 2022-06-19 18:24:36 发布

0. 前言

目前大数据存储主要有两种方案可供选择：行存储（Row-Based）和列存储（Column-Based）。业界对两种方案有许多争持，争论的焦点是：谁能够更有效地处理海量数据，且兼顾安全、可靠、完整性。从目前发展情况看，关系数据库已经不适应这种巨大的存储量和计算要求，基本是淘汰出局。在已知的几种大数据处理软件中，Hadoop的HBase采用列存储，MongoDB是文档型的行存储，Lexst是二进制型的行存储。

1. 概念介绍

行式存储（Row-basedstorage）常用于传统的关系型数据库。列式存储（column-based）是相对于行式存储说的。

行式存储：按行顺序存储表

列式存储：按列顺序存储表

两种存储的数据都是从上至下，从左向右的排列。行是列的组合，行存储以一行记录为单位，列存储以列数据集合单位，或称列族（column family）。行存储的读写过程是一致的，都是从第一列开始，到最后一列结束。列存储的读取是列数据集中的一段或者全部数据，写入时，一行记录被拆分为多列，每一列数据追加到对应列的末尾处。

2. 对比分析

行存储和列存储的差异主要在数据写入和数据读取上，差别如下：

	写入逻辑（cud增改删）	读取逻辑（r 检索查询）	优势	劣势	应用场景
行存储	写入是一次完成的，因此写入结果只有成功、失败两种结果数据修改时，在指定位置写入一次。	将一列数据完全读出，如果需要其中几列的数据，就会存在冗余列，出去缩短处理时间的考量，消除冗余列的过程通常是在内存中进行的。	写入时可以保证数据的完整性；写入时的性能比列存储高，消耗时间更少。	数据读取过程中会产生冗余数据；数据解析比较复杂，因为每一行记录中保存了多种类型的数据，数据解析需要在多种数据类型之间频繁转换，很消耗CPU。	对写入性能、写入完整性要求比较高，但是对查询性能要求不高的场景。主要是OLTP 操作型数据库。
列存储	需要把一行记录拆分成单列保存，写入次数明显比行存储多。数据修改时，将磁盘定位到多个列上分别写入。	每次读取的数据是集合的一段或者全部，不存在冗余问题。	数据读取过程不会产生冗余数据；数据解析会比较容易，每一列数据类型是同质的，不存在二义性问题，比如某列数据是整型（int），那么它的数据集合一定是整型；列存储的数据，压缩时有很大的优势，主要是同一个数据列的数据重复度比较高。	写入时不能完全保证数据的完整性；写入时的性能比列存储低。	对写入性能、写入完整性要求不高，但是对查询性能要求很高的场景。主要是OLAP 分析型数据库。

写入逻辑

（cud增改删）

读取逻辑

（r 检索查询）

优势

劣势

应用场景

行存储

写入是一次完成的，因此写入结果只有成功、失败两种结果

数据修改时，在指定位置写入一次。

将一列数据完全读出，如果需要其中几列的数据，就会存在冗余列，出去缩短处理时间的考量，消除冗余列的过程通常是在内存中进行的。