如何在RDD分区上执行任务?

时间:2019-09-01 08:38:11

标签: apache-spark rdd data-science distributed-computing partitioning

我是Apache Spark的新手,正在尝试了解RDD分区。假设我们有一个10GB的数据源。在Spark应用程序中,我们执行了5次转换和一项操作。我们知道,一旦创建了RDD,Spark就会为此RDD创建分区,并将其存储在执行程序节点中。所以我的问题是这样:

  • 调用该操作时,将触发创建分区并 将每个RDD的分区存储在执行程序中?
  • 火花将如何优化内存以容纳这么多 中间分区?

0 个答案:

没有答案