Spark Streaming DirectAPI中“spark.streaming.blockInterval”的用途是什么

时间:2016-12-17 15:24:04

标签: apache-spark apache-kafka spark-streaming kafka-consumer-api

我想了解,"spark.streaming.blockInterval"在Spark Streaming DirectAPI中扮演什么角色,根据我的理解"spark.streaming.blockInterval"用于计算分区,即#partitions = (receivers x* batchInterval) /blockInterval,但在DirectAPI火花流分区中是等的没有。 kafka分区。

如何在DirectAPI中使用"spark.streaming.blockInterval"

1 个答案:

答案 0 :(得分:0)

spark.streaming.blockInterval:

  

Spark Streaming 接收器收到的数据在存储到Spark之前被分块为数据块的时间间隔。

KafkaUtils.createDirectStream()不使用接收器。

  

使用directStream,Spark Streaming将创建尽可能多的RDD分区   因为有Kafka分区要消费