什么是Spark流式直接分区数与接收器方法数?

时间:2020-08-02 10:25:03

标签: apache-spark spark-streaming spark-streaming-kafka

在新的Spark Streaming API中,根据spark文档以这种格式计算分区数 -:“ Kafka 0.10的Spark Streaming集成在设计上与0.8 Direct Stream方法相似。它提供简单的并行性,Kafka分区与Spark分区之间的1:1对应,以及对偏移量和元数据的访问。”

但是在Spark Streaming文档中,假定分区总数为:batchInterval / minBatchInterval(200ms),所以对于2s的批处理间隔,您将获得10个分区。

我只需要弄清楚为什么直接和接收方方法中计算分区的方法不同。我当时在想直接使用4个kafka分区和2s的批处理间隔,我会得到40个RDD分区。

0 个答案:

没有答案