kafka新老集群平滑迁移实践

前言之前公司一直使用云上的kafka服务，随着业务规模和体量的增大，使用云上的服务成本相对比较高，所以考虑本地自建kafka集群对外提供服务。因此，需要把正在运行的还在使用云上kafka的业务服务迁移到本地，改为使用本地的kafka集群。...

不识君的荒漠

2545人浏览 · 2021-11-04 21:00:55

不识君的荒漠 · 2021-11-04 21:00:55 发布

前言

公司一直使用云上的kafka服务，随着业务规模和体量的增大，使用云上的服务成本相对比较高，所以考虑本地自建kafka集群对外提供服务。

因此，需要把正在运行的还在使用云上kafka的业务服务迁移到本地自建集群上。

要求

代码改动小
升级过程中的稳定性
升级后消息发送与消费的正确性

迁移方案

双写/双读

顾名思义，生产端：消息同时发送新、老集群，消费端：同时消费两个集群的消息。

等到确认新集群的稳定和消息正确性后，逐渐下掉对老集群的依赖。

发送端双写还好做，难点在于消费端消费迁移实现上，主要可能有以下几种问题：

如果采用先消费到备库上，后续备库再切换为主库，很多业务在其目前场景下其实很难实现。
消费端对新集群消息的消费逻辑只是空转意义不大，如果期望检测消费的新、老集群的消息一致性，开发成本也是比较高。
消费端不采用双读方案，不消费新集群的消息。最后直接切换到新集群开始消费，这样需要保证消费的幂等性。但是很多场景下是无法保证的，比如使用了第三方大数据相关的组件。
采用双写/双读的方案，很多项目相关负责的同学，肯定也是无法接受的，毕竟代码改造太多了，开发成本太高。

所以，优先不考虑这种方案，采用了下面这种数据同步的方案。

数据同步

采用消息同步工具，将老集群的消息直接同步到新集群，客户端不再需要双读/双写，最后切换的时候直接修改为新集群的地址，重新发布即可。

整个过程如下：

最后下掉老集群。

这样无论对发送端或消费端都是是极其友好，且“平滑”。

我最终考虑并采用的是这个方案，唯一的问题便是迁移过程中的所有问题和压力都从业务侧的同学转移到我们这边，比如：发送的消息如何同步，如何避免消费端切换后，重复消费或者漏掉消息未消费。

迁移过程

迁移基本流程正如前面流程图展示的：数据同步->迁移生产端/消费端。

生产端和消费端没有先后切换新集群上的顺序要求，但是如果先把生产端切换到新集群，消费端就无法从老集群继续消费消息了，需要在消息的过期时间内，赶紧也切换到新集群。

但是如果消费端先切，则发送端可以在之后的任何时间。

消息同步

消息同步是第一步，kafka的消息同步工具在业内有做的比较好的商业版提供，同时也有开源版本供使用。

我选取的是官方自带的kafka-mirror-maker工具。

但是不能直接拿来用，否则同步过来的消息无法继续我下面的方案。

kafka-mirror-maker的默认实现就是消费老集群指定topic的消息并重新发送到新集群，且发送的时候未指定分区。但是我需要保证新老集群上每条消息在每个分区上的顺序保持一致，不能出现消息在老集群的分区0上，同步后被发送到新集群的分区1上。

因此进行适当改造，如下，构造消息的时候指定发送的分区：

  private[tools] object defaultMirrorMakerMessageHandler extends MirrorMakerMessageHandler {
    override def handle(record: BaseConsumerRecord): util.List[ProducerRecord[Array[Byte], Array[Byte]]] = {
      val timestamp: java.lang.Long = if (record.timestamp == RecordBatch.NO_TIMESTAMP) null else record.timestamp
      Collections.singletonList(new ProducerRecord(record.topic, record.partition, timestamp, record.key, record.value, record.headers))
    }
  }

重新编译打包。

其实执行同步前，确保要同步的topic，已经在新集群创建并且新、老集群的分区数保持一致。

最后，同步的时候，我们并不需要一次性把所有的topic消息都向新集群同步。有针对性的处理，要迁移哪个服务，同步对应该topic的消息，迁移完成，停掉对应的同步进程，然后继续下个服务。

当然为了方便，我同时开发了对应的启停脚本，尽可能方便、规范的进行。

下面是我计划的协作流程：