应用错误收集

火花桶

时间：2018-08-02 19:01:22

标签： apache-spark

如果我的理解是正确的，则无法内联存储桶，然后直接使用此效果；
- 如果源/目标尚未存储，则必须首先写入存储桶并再次读回。

在SPARK思维方式中似乎很奇怪。还是我弄错了？

1 个答案:

答案 0 :(得分：0)

Spark Bucket在磁盘上等同于分区（使用特定的键和哈希分区来组织数据）-如果您要“内联”该过程，只需repartition您的Dataset

df.repartition(nPartitions, col)