在新的Spark Streaming API中,根据spark文档以这种格式计算分区数 -:“ Kafka 0.10的Spark Streaming集成在设计上与0.8 Direct Stream方法相似。它提供简单的并行性,Kafka分区与Spark分区之间的1:1对应,以及对偏移量和元数据的访问。”
但是在Spark Streaming文档中,假定分区总数为:batchInterval / minBatchInterval(200ms),所以对于2s的批处理间隔,您将获得10个分区。
我只需要弄清楚为什么直接和接收方方法中计算分区的方法不同。我当时在想直接使用4个kafka分区和2s的批处理间隔,我会得到40个RDD分区。