flink1.15 部分新特性解析

lifuyi2017

2909人浏览 · 2022-05-18 18:08:12

lifuyi2017 · 2022-05-18 18:08:12 发布

一：connector

一：sink v2

一：二阶段sink总架构

二阶段sink 先上图

新的sink架构中要实现二阶段的sink需要实现TwoPhaseCommittingSink

相关接口类图如下：

其中：PrecommittingSinkWriter是二阶段提交的第一阶段，Committer是第二阶段

在转换为执行operator的时候，会把TwoPhaseCommittingSink转换为2个operator，具体逻辑是在生成streamgraph时实现的，具体逻辑在SinkTransformationTranslator中

后续最终转换为了SinkWriterOperator和CommitterOperator，数据流向是从SinkWriterOperator流入CommitterOperator（以kafka为例，Writer负责producer.send，并且通过emitCommittables方法向commiter发送Collection<KafkaCommittable>，commiter最终会调用到producer.commitTransaction提交事务，中间会通过CheckpointCommittableManager组件进行通信）

具体代码详见：FLINK-25575和FLINK-25573

FLINK-25575

二：kafka

官方给出的kafka案例如下

public class KafkaExample extends KafkaExampleUtil {

    public static void main(String[] args) throws Exception {
        // parse input arguments
        final ParameterTool parameterTool = ParameterTool.fromArgs(args);
        StreamExecutionEnvironment env = KafkaExampleUtil.prepareExecutionEnv(parameterTool);

        DataStream<Integer> input =
                env.fromSource(
                        KafkaSource.<Integer>builder()
                                .setBootstrapServers(
                                        parameterTool
                                                .getProperties()
                                                .getProperty(
                                                        ProducerConfig.BOOTSTRAP_SERVERS_CONFIG))
                                .setBounded(OffsetsInitializer.latest())
                                .setDeserializer(
                                        KafkaRecordDeserializationSchema.valueOnly(
                                                IntegerDeserializer.class))
                                .setTopics(parameterTool.getRequired("input-topic"))
                                .build(),
                        WatermarkStrategy.noWatermarks(),
                        "kafka-source");

        input.sinkTo(
                KafkaSink.<Integer>builder()
                        .setBootstrapServers(
                                parameterTool
                                        .getProperties()
                                        .getProperty(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG))
                        .setRecordSerializer(
                                KafkaRecordSerializationSchema.builder()
//                                        .setTopic(parameterTool.getRequired("output-topic"))
                                        .setTopicSelector(new TopicSelector<Integer>() {
                                            @Override
                                            public String apply(Integer integer) {
                                                return null;
                                            }
                                        })
                                        .setKafkaValueSerializer(IntegerSerializer.class)
                                        .build())
                        .build());
        env.execute("Smoke Kafka Example");
    }
}

其中的setTopicSelector可以很好的实现kafka分流，不需要在像Flink动态分流到kafka，hbase - 百度文库

中这么复杂了，还提供了setPartitioner，可以根据数据指定分区

三：es sink

es并不支持二阶段sink，所以不能保证exactly-once语义，essink涉及的类如下：

BulkProcessorConfig：保存批量插入的配置的，属于ElasticsearchSink的一个属性，用于构造writer
ElasticsearchEmitter：用户编写逻辑用于构造es的request
ElasticsearchSink：sink类
ElasticsearchSinkBuilderBase：用于工厂模式生成sink的
ElasticsearchWriter：sink类的对象，是sinkWriter的实现，里面包含Emitter，es的client，es的bulkProcessor
FlushBackoffType：重试机制，es请求发送失败时的重试机制，有三种
NetworkClientConfig：保存链接es的一些配置的，属于ElasticsearchSink的一个属性，用于构造writer
RequestIndexer：用于保存请求的