一分钟搞明白hive分区表和分桶表的区别

1.两者的区别（1）分区和分桶都是细化数据管理，但是分区表是手动添加区分，由于hive是读模式，所以对添加进分区的数据不做模式校验。分桶表的数据时按住某些分桶字段进行hash散列相乘的多个文件，所以数据的准确性高很多（2）分区表是指按照数据表的某列或某些列分为多个区，区从形式上可以理解为文件夹（3）分桶是相对分区进行更细粒度的划分。分桶将整个数据内容按照某列属性值的hash值进行区分，如要按照n

往事随风_h

25737人浏览 · 2021-01-06 16:32:45

往事随风_h · 2021-01-06 16:32:45 发布

1.两者的区别

（1）分区和分桶都是细化数据管理，但是分区表是手动添加区分，由于hive是读模式，所以对添加进分区的数据不做模式校验。分桶表的数据时按住某些分桶字段进行hash散列相乘的多个文件，所以数据的准确性高很多

（2）分区表是指按照数据表的某列或某些列分为多个区，区从形式上可以理解为文件夹

（3）分桶是相对分区进行更细粒度的划分。分桶将整个数据内容按照某列属性值的hash值进行区分，如要按照name属性分为3个桶，就是对name属性值的hash值对3取摸，按照取模结果对数据分桶。如取模结果为0的数据记录存放到一个文件，取模为1的数据存放到一个文件，取模为2的数据存放到一个文件

2.归纳总结两者的区别：

（1）从表现形式上：
分区表是一个目录，分桶表是文件

（2）从创建语句上：
分区表使用partitioned by 子句指定，以指定字段为伪列，需要指定字段类型
分桶表由clustered by 子句指定，指定字段为真实字段，需要指定桶的个数

（3）从数量上：
分区表的分区个数可以增长，分桶表一旦指定，不能再增长

（4）从作用上：
分区避免全表扫描，根据分区列查询指定目录提高查询速度
分桶保存分桶查询结果的分桶结构（数据已经按照分桶字段进行了hash散列）。
分桶表数据进行抽样和JOIN时可以提高MR程序效率

华为云开发者联盟

为开发者提供学习成长、分享交流、生态实践、资源工具等服务，帮助开发者快速成长。

更多推荐

cover

【重磅】华为云盘古大模型5.0，正式发布！

华为云开发者联盟

cover

中图科信携手华为云打造“思瓜LUFFA AI”首次亮相华为开发者大会

华为云开发者联盟

cover

盘古媒体大模型，重塑媒体产业生产力

华为云开发者联盟

所有评论(0)

查看更多评论

往事随风_h

已为社区贡献2条内容