为什么HDFS文件块（block）大小设定为128M

我们在HDFS中存储数据是以块（block）的形式存放在DataNode中的，块（block）的大小可以通过设置dfs.blocksize来实现；在Hadoop2.x的版本中，文件块的默认大小是128M，老版本中默认是64M；寻址时间：HDFS中找到目标文件块（block）所需要的时间。原理：文件块越大，寻址时间越短，但磁盘传输时间越长；文件块越小，寻址时间越长，但磁盘传输时间越短。一、为什么HD

生命不息丶折腾不止

6019人浏览 · 2021-12-13 17:03:53

生命不息丶折腾不止 · 2021-12-13 17:03:53 发布

我们在HDFS中存储数据是以块（block）的形式存放在DataNode中的，块（block）的大小可以通过设置dfs.blocksize来实现；

在Hadoop2.x的版本中，文件块的默认大小是128M，老版本中默认是64M；

寻址时间：HDFS中找到目标文件块（block）所需要的时间。

原理：

文件块越大，寻址时间越短，但磁盘传输时间越长；

文件块越小，寻址时间越长，但磁盘传输时间越短。

一、为什么HDFS中块（block）不能设置太大，也不能设置太小？

如果块设置过大，

一方面，从磁盘传输数据的时间会明显大于寻址时间，导致程序在处理这块数据时，变得非常慢；

另一方面，mapreduce中的map任务通常一次只处理一个块中的数据，如果块过大运行速度也会很慢。
如果块设置过小，

一方面存放大量小文件会占用NameNode中大量内存来存储元数据，而NameNode的内存是有限的，不可取；

另一方面文件块过小，寻址时间增大，导致程序一直在找block的开始位置。

因而，块适当设置大一些，减少寻址时间，那么传输一个由多个块组成的文件的时间主要取决于磁盘的传输速率。

二、 HDFS中块（block）的大小为什么设置为128M？