Flink的重启策略

Flink的 RestartStrategy 作用是什么?
一句话概括,提升任务健壮性和容错性,保证任务可以实时产出数据。
设置重启策略和公司处理数据业务需求有很大的关系,根据不同的业务需求设置处理任务的不同策略。

有时候因为数据的问题(不合规范、为 null 等),这时在处理这些脏数据的时候可能就会遇到各种各样的异常错误,比如空指针、数组越界、数据类型转换错误等。可能你会说只要过滤掉这种脏数据就行了,或者进行异常捕获就不会导致 Job 不断重启的问题了。
所以日常开发中我们要尽力的保证代码的健壮性,但是也要配置好 Flink Job 的 RestartStrategy(重启策略)。

Flink默认重启策略是通过Flink的配置文件设置的flink-conf.yaml,配置参数restart-strategy定义采用的策略。

注意:如果启用了checkpoint并且没有显式配置重启策略,会默认使用fixeddelay策略,最大重试次数为Integer.MAX_VALUE

Flink有四种重启策略

1.固定延迟重启策略

固定延迟重启策略是尝试给定次数重新启动作业。如果超过最大尝试次数,则作业失败。在两次连续重启尝试之间,会有一个固定的延迟等待时间。通过在flink-conf.yaml中配置参数:

restart-strategy: fixed-delay             # fixed-delay:固定延迟策略

restart-strategy.fixed-delay.attempts: 5   # 尝试5次,默认Integer.MAX_VALUE

restart-strategy.fixed-delay.delay: 10s    # 设置延迟时间10s,默认为 akka.ask.timeout时间

在程序中设置固定延迟重启策略如下:

 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
    // 设置固定延迟重启策略
        env.setRestartStrategy(RestartStrategies
                .fixedDelayRestart(3,Time.seconds(3)));

2.故障率重启策略

故障率重启策略在故障后重新作业,当设置的故障率(failure rate)超过每个时间间隔的故障时,作业最终失败。在两次连续重启尝试之间,重启策略延迟等待一段时间。

restart-strategy: failure-rate                          # 设置重启策略为failure-rate

restart-strategy.failure-rate.max-failures-per-interval: 3  # 失败作业之前的给定时间间隔内的最大重启次数,默认1

restart-strategy.failure-rate.failure-rate-interval: 5min   # 测量故障率的时间间隔。默认1min

restart-strategy.failure-rate.delay: 10s                 # 两次连续重启尝试之间的延迟,默认akka.ask.timeout时间

失败后,5分钟内重启3次(每次重启间隔10s),如果第3次还是失败,则任务最终是失败,不再重启。

可以在应用程序中这样设置来配置故障率重启策略:

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
  // 设置任务失败重启 允许任务失败最大次数 3次
       env.setRestartStrategy(RestartStrategies.failureRateRestart(3,
                // 任务失败的时间启动的间隔
                Time.of(2, TimeUnit.SECONDS),
                // 允许任务延迟时间 3s
                Time.of(3, TimeUnit.SECONDS))
        );

3.无重启策略

第一次失败后就最终失败,不再重启。  restart-strategy: none

在程序中如下设置即可配置不重启:

StreamExecutionEnvironment env= StreamExecutionEnvironment.getExecutionEnvironment();
env.setRestartStrategy(RestartStrategies.noRestart());

4.后备重启策略

这是集群定义的重启策略。

如果程序没有启用 Checkpoint,则采用不重启策略,如果开启了 Checkpoint 且没有设置重启策略,那么采用固定延时重启策略,最大重启次数为 Integer.MAX_VALUE。
Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐