读取时Spark重新分区压缩文件输入

时间:2016-02-11 15:56:21

标签: apache-spark pyspark

使用sc.textFile(path,partitions)我可以在读取未压缩文件时对其进行分区。不幸的是,对于压缩部分的RDD,partitions在设置时不会发生变化。由于下游处理必须在更多的部分,我做sc.textFile(path,partitions).repartition(partitions),但它做了很多改组。有没有办法在当地重新分配?也就是说,对于他们所拥有的每个节点而言,它都会将其分解为多个部分,而不是随机地在整个群集中进行混洗。

0 个答案:

没有答案