标签: hadoop apache-spark apache-spark-sql rdd
请解释在spark UI的Executors标签页中显示的RDD Block是什么。我在下面强调了它。
在我的情况下,我总是将RDD块视为2。
它是否与并行性有关? 。正如你所看到的那样,活跃核心的数量是4,但在我的情况下,RDD模块大多数是2-3 - 请你能解释一下吗?
理想的TASK执行时间应该是什么。我在博客中读到一个任务应至少运行100毫秒。
https://umbertogriffo.gitbooks.io/apache-spark-best-practices-and-tuning/content/sparksqlshufflepartitions_draft.html
这是最短的运行时间..但理想的任务执行时间应该是什么,以便我们可以决定是减少还是增加分区。??