我想了解,"spark.streaming.blockInterval"
在Spark Streaming DirectAPI中扮演什么角色,根据我的理解"spark.streaming.blockInterval"
用于计算分区,即#partitions = (receivers x* batchInterval) /blockInterval
,但在DirectAPI火花流分区中是等的没有。 kafka分区。
如何在DirectAPI中使用"spark.streaming.blockInterval"
?
答案 0 :(得分:0)
spark.streaming.blockInterval:
Spark Streaming 接收器收到的数据在存储到Spark之前被分块为数据块的时间间隔。
KafkaUtils.createDirectStream()不使用接收器。
使用directStream,Spark Streaming将创建尽可能多的RDD分区 因为有Kafka分区要消费