应用错误收集

在新的Spark Streaming API中，根据spark文档以这种格式计算分区数 -：“ Kafka 0.10的Spark Streaming集成在设计上与0.8 Direct Stream方法相似。它提供简单的并行性，Kafka分区与Spark分区之间的1：1对应，以及对偏移量和元数据的访问。”

但是在Spark Streaming文档中，假定分区总数为：batchInterval / minBatchInterval（200ms），所以对于2s的批处理间隔，您将获得10个分区。

我只需要弄清楚为什么直接和接收方方法中计算分区的方法不同。我当时在想直接使用4个kafka分区和2s的批处理间隔，我会得到40个RDD分区。

什么是Spark流式直接分区数与接收器方法数？

0 个答案: