Spark结构化流获取最后一个Kafka分区的消息

时间:2018-11-24 22:35:10

标签: java apache-spark apache-kafka spark-structured-streaming

我正在使用Spark结构化流媒体来阅读Kafka主题。

没有任何分区,Spark Structired Streaming使用者可以读取数据。

但是当我将分区添加到主题时,客户端仅显示来自最后一个分区的消息。 即如果主题中有4个分区,并且I.am在主题中推入1,2,3,4之类的数字,则客户端仅打印4个其他值。

我正在使用Spark Structured Streaming网站上的最新样本和二进制文件。

    DataFrame<Row> df = spark
 .readStream()
 .format("kafka") 
.option("kafka.bootstrap.servers", "host1:port1,host2:port2") 
.option("subscribe", "topic1") 
.load()

我想念什么吗?

1 个答案:

答案 0 :(得分:0)

通过将kafka-clients-0.10.1.1.jar更改为kafka-clients-0.10.0.1.jar来解决问题。

在这里Spark Structured Stream get messages from only one partition of Kafka 找到了参考