首先kafka只保证partition内的消息是顺序的,并不保证topic维度是顺序的。其次,我们联系存储架构来思考,就很容易理解。我们的分区文件是追加写入的,那么对于一个分区而言,它保证消息顺序的特性是天然自带的。但是 Topic 是一个逻辑概念,是由多个分区文件组成的,因此想要做到 Topic 维度的数据顺序,代价是非常大的,所以 kafka 并不保证 Topic 维度的消息顺序。在这个前提下,如果想要实现顺序消费,那么对于生产者/服务端/消费者三端就需要以下动作:

  • 生产者:保证将消息写入一个分区内。
  • 服务端:创建只有一个分区的topic
  • 消费端:保证一个线程消费一个分区。

生产者:
由于Kafka的一个Topic可以分为多个Partition,Partition中的数据是有序的,但是从多个Partition中读出来后的数据会变成无序的。因此要满足全局有序只能让一个Topic只有一个Partition。可以通过生产者在写消息的时候指定一个key,通过partitionKey将某类消息写入同一个Partition中。
在这里插入图片描述
服务端:
生产者发送数据到队列时,通过加锁保证有序。Kafka通过引入生产者的幂等性来解决重传机制引起的消息乱序。
每一个新的生产者在初始化的时候会生成一个Producer ID,即PID。对于每一个PID,该Producer发送消息的每个<Topic,Partition> 都对应一个单调递增的Sequence Number。broker端会缓存这个序号。每收到一条消息,判断该消息的序号是否比缓存的序号大1,是则接收,不是则丢弃。

消费者:
消费者端要保证顺序消费的话,只能使用单线程(效率低)或者保证消费顺序的线程模型。
解决方案:
消费者端创建多个内存队列,具有相同key的数据都保存到同一个队列中,然后让每个线程分别消费一个内存队列即可。请添加图片描述

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐