应用错误收集

使用sc.textFile(path,partitions)我可以在读取未压缩文件时对其进行分区。不幸的是，对于压缩部分的RDD，partitions在设置时不会发生变化。由于下游处理必须在更多的部分，我做sc.textFile(path,partitions).repartition(partitions)，但它做了很多改组。有没有办法在当地重新分配？也就是说，对于他们所拥有的每个节点而言，它都会将其分解为多个部分，而不是随机地在整个群集中进行混洗。

读取时Spark重新分区压缩文件输入

0 个答案: