我正在使用Spark结构化流媒体来阅读Kafka主题。
没有任何分区,Spark Structired Streaming使用者可以读取数据。
但是当我将分区添加到主题时,客户端仅显示来自最后一个分区的消息。 即如果主题中有4个分区,并且I.am在主题中推入1,2,3,4之类的数字,则客户端仅打印4个其他值。
我正在使用Spark Structured Streaming网站上的最新样本和二进制文件。
DataFrame<Row> df = spark
.readStream()
.format("kafka")
.option("kafka.bootstrap.servers", "host1:port1,host2:port2")
.option("subscribe", "topic1")
.load()
我想念什么吗?
答案 0 :(得分:0)
通过将kafka-clients-0.10.1.1.jar更改为kafka-clients-0.10.0.1.jar来解决问题。
在这里Spark Structured Stream get messages from only one partition of Kafka 找到了参考