虎年第一篇:

在Flink的1.13版本以后,官方对FlinkKafkaConsumer类进行了过期设置,所以最好用KafkaSource来进行读取数据。

pom文件

<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-kafka_2.12</artifactId> <version>1.14.3</version> </dependency>

代码如下:

final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();


Properties consumerPro = new Properties();
        consumerPro.setProperty(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "KAFKA_BOOTSTRAP_SERVERS");
        consumerPro.setProperty(ConsumerConfig.GROUP_ID_CONFIG,"Kafka-Group-Id");


KafkaSource<Test> testKafkaSource = KafkaSource.<Test>builder()
                .setProperties(consumerPro)
                .setTopics("Topic-Name")
                .setValueOnlyDeserializer(new KafkaSourceSchema())
                .setStartingOffsets(OffsetsInitializer.earliest())
                .build();

DataStreamSource<Test> testDataStream = env.fromSource(testKafkaSource,
                WatermarkStrategy.noWatermarks(),
                "Kafka-Source",
                TypeInformation.of(Test.class));


@AllArgsConstructor
@NoArgsConstructor
@Data
class Test{
    private int id;
    private int name;
}

KafkaSource之后的内容都是一些常规设置,这里就不一一解释了。

略微对fromSource读取的时候其中的参数进行下解释,在使用fromSource方法的时候,源码如下:

public <OUT> DataStreamSource<OUT> fromSource(
            Source<OUT, ?, ?> source,
            WatermarkStrategy<OUT> timestampsAndWatermarks,
            String sourceName,
            TypeInformation<OUT> typeInfo)

共四个参数,其中

第一个参数为源头,即KafkaSource读取过后的内容;

第二个参数为水位线设置策略,目前为止,经过测试发现,如果自定义一个水位线类实现WatermarkStrategy该类,发现后期其实这里在使用窗口函数的时候,会无法输出数据,所以这里可以统一填WatermarkStrategy.noWatermarks(),暂时读的时候先不设置水位线,在后期具体开窗之后再具体设置水位线;

第三个参数为该Source的自定义的一个名字;

第四个参数为返回值类型的一个说明,可以统一用TypeInformation.of来封装。

预祝各位2022年新年快乐,虎年大吉!!!

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐