标签: apache-spark shuffle partitioner
在Apache Spark中,分区器用于定义如何对数据进行洗牌。它们都有getPartition(key: Any): Int方法来执行此操作。
getPartition(key: Any): Int
特别是在RangePartitioner中,开发人员需要传输有关RDD的信息才能启动它。所以我对分区器实际执行工作的位置感到困惑:执行器,驱动程序还是主机?
RangePartitioner
RDD