1流和Kafka代理版本0.8.2.1,我在AWS上有单独的用于spark和kafka的服务器。
使用val directKafkaStream = KafkaUtils.createDirectStream
直接方法。 StreamingContext(conf, Seconds(300))
,我希望从流中获取30个字符串,但实际只接收15-25的范围。对同一主题的kafka用户进行交叉检查,在300秒内显示30个字符串。然后stream.foreachRDD {rdd =>给出15到20个字符串。
获取非均匀数据背后的问题是什么?我正在使用sparksession创建sc和ssc。
谢谢。
答案 0 :(得分:0)
在卡夫卡参数中将auto.offset.reset
添加到smallest
val kafkaParams = Map[String, String](
"auto.offset.reset" -> "smallest", ......)