数据丢失Spark 2.1 -kafka代理0.8.2.1流式传输

时间:2018-06-27 16:43:21

标签: apache-spark apache-kafka spark-streaming

1流和Kafka代理版本0.8.2.1,我在AWS上有单独的用于spark和kafka的服务器。

使用val directKafkaStream = KafkaUtils.createDirectStream直接方法。 StreamingContext(conf, Seconds(300)),我希望从流中获取30个字符串,但实际只接收15-25的范围。对同一主题的kafka用户进行交叉检查,在300秒内显示30个字符串。然后stream.foreachRDD {rdd =>给出15到20个字符串。

获取非均匀数据背后的问题是什么?我正在使用sparksession创建sc和ssc。

谢谢。

1 个答案:

答案 0 :(得分:0)

在卡夫卡参数中将auto.offset.reset添加到smallest

 val kafkaParams = Map[String, String](
         "auto.offset.reset" -> "smallest", ......)