吃透Kafka二：kafka高性能之顺序IO、页缓存、零拷贝

大家都知道Kafka是将数据存储于磁盘的，而磁盘读写性能往往很差，但Kafka官方测试其数据读写速率能达到600M/s，那么为什么Kafka性能会这么高/为什么这么快呢？首先producer往broker发送消息时，采用batch的方式即批量而非一条一条的发送，这种方式可以有效降低网络IO的请求次数，提升性能。此外这些批次消息会"暂存"在缓冲池中，避免频繁的GC问题。批量发送的消息可以进行压缩并且

吃透Java

3917人浏览 · 2021-11-16 12:38:27

吃透Java · 2021-11-16 12:38:27 发布

大家都知道Kafka是将数据存储于磁盘的，而磁盘读写性能往往很差，但Kafka官方测试其数据读写速率能达到600M/s，那么为什么Kafka性能会这么高/为什么这么快呢？

首先producer往broker发送消息时，采用batch的方式即批量而非一条一条的发送，这种方式可以有效降低网络IO的请求次数，提升性能。此外这些批次消息会"暂存"在缓冲池中，避免频繁的GC问题。批量发送的消息可以进行压缩并且传输的时候可以进行高效的序列化，从而减少数据大小。

Kafka除了在producer发送消息方面做了很多优化，还有很多其他的优化，比如Kafka利用了Sequence IO、PageCache、SendFile这3种处理方案：

一，Sequence IO

首先来了解一下磁盘的特性：快速顺序读写、慢速随机读写。因为磁盘是典型的IO块设备，每次读写都会经历寻址，其中寻址中寻道是比较耗时的。随机读写会导致寻址时间延长，从而影响磁盘的读写速度。

而Kafka在将数据持久化到磁盘时，采用只追加的顺序写，有效降低了寻址时间，提高效率。下图展示了Kafka写入数据到partition的方式：

在这里插入图片描述

可以看到Kafka会将数据插入到文件末尾，并且Kafka不会"直接"删除数据，而是把所有数据保存到磁盘，每个consumer会指定一个offset来记录自己订阅的topic的partition中消费的位置。当然我们可以设置策略来清理数据，比如通过参数log.retention.hours指定过期时间，当达到过期时间时，Kafka会清理数据。