Flink利用KafkaSource读取Kafka数据做为数据源
虎年第一篇:在Flink的1.13版本以后,官方对FlinkKafkaConsumer类进行了过期设置,所以最好用KafkaSource来进行读取数据。pom文件<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-kafka_2.12</art
虎年第一篇:
在Flink的1.13版本以后,官方对FlinkKafkaConsumer类进行了过期设置,所以最好用KafkaSource来进行读取数据。
pom文件
<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-kafka_2.12</artifactId> <version>1.14.3</version> </dependency>
代码如下:
final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
Properties consumerPro = new Properties();
consumerPro.setProperty(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "KAFKA_BOOTSTRAP_SERVERS");
consumerPro.setProperty(ConsumerConfig.GROUP_ID_CONFIG,"Kafka-Group-Id");
KafkaSource<Test> testKafkaSource = KafkaSource.<Test>builder()
.setProperties(consumerPro)
.setTopics("Topic-Name")
.setValueOnlyDeserializer(new KafkaSourceSchema())
.setStartingOffsets(OffsetsInitializer.earliest())
.build();
DataStreamSource<Test> testDataStream = env.fromSource(testKafkaSource,
WatermarkStrategy.noWatermarks(),
"Kafka-Source",
TypeInformation.of(Test.class));
@AllArgsConstructor
@NoArgsConstructor
@Data
class Test{
private int id;
private int name;
}
KafkaSource之后的内容都是一些常规设置,这里就不一一解释了。
略微对fromSource读取的时候其中的参数进行下解释,在使用fromSource方法的时候,源码如下:
public <OUT> DataStreamSource<OUT> fromSource(
Source<OUT, ?, ?> source,
WatermarkStrategy<OUT> timestampsAndWatermarks,
String sourceName,
TypeInformation<OUT> typeInfo)
共四个参数,其中
第一个参数为源头,即KafkaSource读取过后的内容;
第二个参数为水位线设置策略,目前为止,经过测试发现,如果自定义一个水位线类实现WatermarkStrategy该类,发现后期其实这里在使用窗口函数的时候,会无法输出数据,所以这里可以统一填WatermarkStrategy.noWatermarks(),暂时读的时候先不设置水位线,在后期具体开窗之后再具体设置水位线;
第三个参数为该Source的自定义的一个名字;
第四个参数为返回值类型的一个说明,可以统一用TypeInformation.of来封装。
预祝各位2022年新年快乐,虎年大吉!!!
更多推荐
所有评论(0)