标签: apache-spark pyspark
使用sc.textFile(path,partitions)我可以在读取未压缩文件时对其进行分区。不幸的是,对于压缩部分的RDD,partitions在设置时不会发生变化。由于下游处理必须在更多的部分,我做sc.textFile(path,partitions).repartition(partitions),但它做了很多改组。有没有办法在当地重新分配?也就是说,对于他们所拥有的每个节点而言,它都会将其分解为多个部分,而不是随机地在整个群集中进行混洗。
sc.textFile(path,partitions)
partitions
sc.textFile(path,partitions).repartition(partitions)