标签: apache-spark rdd data-science distributed-computing partitioning
我是Apache Spark的新手,正在尝试了解RDD分区。假设我们有一个10GB的数据源。在Spark应用程序中,我们执行了5次转换和一项操作。我们知道,一旦创建了RDD,Spark就会为此RDD创建分区,并将其存储在执行程序节点中。所以我的问题是这样: