【全网独家】大数据集群节点与硬件规划

1.大数据集群节点规划1.1 数据存储总量预估比如业务系统数据量每天增量 50T，保留周期为 30 天，那么 HDFS 存储容量为 50T * 30 天 * 3副本 * 2 倍（数据源+清晰加工） = 9000T = 8.79P1.2 DataNode节点规模预估每个机器的磁盘是 4T *10 = 40T, 每台机器的可用存储容量为 40T *0.75 = 30T，节点预估数量= 9000T

大数据研习社

5486人浏览 · 2022-03-28 15:23:54

大数据研习社 · 2022-03-28 15:23:54 发布

1.大数据集群节点规划

1.1 数据存储总量预估

比如业务系统数据量每天增量 50T，保留周期为 30 天，那么 HDFS 存储容量为 50T * 30 天 * 3 副本 * 2 倍（数据源+清晰加工） = 9000T = 8.79P

1.2 DataNode节点规模预估

每个机器的磁盘是 4T * 10 = 40T, 每台机器的可用存储容量为 40T * 0.75 = 30T，节点预估数量= 9000T / 30 = 300 节点，所以 datanode 的节点最小数量为 300 个，也是 YARN 的 nodemanager 的节点数

1.3 NodeManager节点规模预估

根据任务量和性能评估 YARN 的节点数是很难的，难以评估，所以 NodeManager节点数可以和datanode节点数保持一致，如果算力负载过高，根据实际情况再扩容即可。

1. 4 HBase节点规模预估

HBase 节点规划：一般开始搭建是根据 HDFS 存储公式计算即可，增加并发的考虑，一般一个 RegionSever 并发为 5000 ~2 万（优化后并发更高），可以根据业务实际并发估计节点数量

1.5 Kafka节点规模预估

Kafka 节点规划：一般开始搭建是根据类似 HDFS 存储公式计算，一般一个 broker 并发为 5 万（优化后并发更高），可以根据业务实际并发估计节点数量

1.6 Zookeeper节点规模预估

Zookeeper 节点规划：集群开始搭建时 3 节点就够用了，如果发现 zookeeper 负载过高或有超时现象时可以考虑扩展到 5 节点集群中的每个组件要做高可用，一般国企会用 CDH，互联网公司会用开源社区版演化自己平台

1.7 NameNode内存规划

NameNode 内存一般 100 万个 block 对应 1G 的堆内存，比如我们最大的一个集群的 block 达到了 9000 万，会占内容 90G，NameNode 的内存不只存放 block，我们产线环境配置的是 200G+

2.集群硬件规划

2.1 HDFS 节点配置

主节点 NameNode 主要 CPU/内存配置高些，系统盘做 RAID1，hdfs 要安装在系统盘上，如果有其他的数据盘，可以做 RAID5，容量所需不大，500G~ 1T 即可

从节点 datanode 内存/CPU/磁盘都有要求，我们产线存储每服务器 4T*10=40T 台

2.2 YARN 节点配置

主节点 ResourceManager 主要 CPU/内存配置高些，系统盘做 RAID1，hdfs 要安装在系统盘上，如果有其他的数据盘，可以做 RAID5，容量所需不大， 500G~1T 即可

从节点 NodeManager 对 CPU 和内存都有要求

2.3 HBase 节点配置

主节点 Master CPU 内存中配就行

从节点 RegionServer 内存可以大些

2.4 Kafka 产线配置

3.大数据运维真经

3.1 标准生产集群建设

3.2 标准生产集群调优

3.3 生产集群问题

3.4 集群监控部署

更多大数据运维真经，扫描下方二维码

点击阅读全文

华为开发者空间

华为开发者空间，是为全球开发者打造的专属开发空间，汇聚了华为优质开发资源及工具，致力于让每一位开发者拥有一台云主机，基于华为根生态开发、创新。

更多推荐

cover

昇腾CANN算子共建仓CANN-Ops正式上线Gitee，首批算子已合入

华为开发者空间

cover

智启商业新纪元：华为云北京DeepSeek AI深度智能应用沙龙圆满举行

华为开发者空间

cover

2025华为软件精英挑战赛复赛赛题公布，各位晋级选手加油！

华为开发者空间

所有评论(0)

查看更多评论

大数据研习社

已为社区贡献11条内容

目录