什么是RDD Block,它显示在Apache Spark的Executors选项卡页面中

时间:2018-02-26 02:49:20

标签: hadoop apache-spark apache-spark-sql rdd

请解释在spark UI的Executors标签页中显示的RDD Block是什么。我在下面强调了它。

在我的情况下,我总是将RDD块视为2。

它是否与并行性有关? 。正如你所看到的那样,活跃核心的数量是4,但在我的情况下,RDD模块大多数是2-3 - 请你能解释一下吗?

理想的TASK执行时间应该是什么。我在博客中读到一个任务应至少运行100毫秒。

https://umbertogriffo.gitbooks.io/apache-spark-best-practices-and-tuning/content/sparksqlshufflepartitions_draft.html

这是最短的运行时间..但理想的任务执行时间应该是什么,以便我们可以决定是减少还是增加分区。??

0 个答案:

没有答案