应用错误收集

如何在RDD分区上执行任务？

时间：2019-09-01 08:38:11

标签： apache-spark rdd data-science distributed-computing partitioning

我是Apache Spark的新手，正在尝试了解RDD分区。假设我们有一个10GB的数据源。在Spark应用程序中，我们执行了5次转换和一项操作。我们知道，一旦创建了RDD，Spark就会为此RDD创建分区，并将其存储在执行程序节点中。所以我的问题是这样：

调用该操作时，将触发创建分区并将每个RDD的分区存储在执行程序中？
火花将如何优化内存以容纳这么多中间分区？

0 个答案:

没有答案