Question

1流和Kafka代理版本0.8.2.1，我在AWS上有单独的用于spark和kafka的服务器。

使用val directKafkaStream = KafkaUtils.createDirectStream直接方法。 StreamingContext(conf, Seconds(300))，我希望从流中获取30个字符串，但实际只接收15-25的范围。对同一主题的kafka用户进行交叉检查，在300秒内显示30个字符串。然后stream.foreachRDD {rdd =>给出15到20个字符串。

获取非均匀数据背后的问题是什么？我正在使用sparksession创建sc和ssc。

谢谢。

Answer 1

在卡夫卡参数中将auto.offset.reset添加到smallest

 val kafkaParams = Map[String, String](
         "auto.offset.reset" -> "smallest", ......)

数据丢失Spark 2.1 -kafka代理0.8.2.1流式传输

1 个答案: