火花桶

时间:2018-08-02 19:01:22

标签: apache-spark

  • 如果我的理解是正确的,则无法内联存储桶,然后直接使用此效果;
    • 如果源/目标尚未存储,则必须首先写入存储桶并再次读回。

在SPARK思维方式中似乎很奇怪。还是我弄错了?

1 个答案:

答案 0 :(得分:0)

Spark Bucket在磁盘上等同于分区(使用特定的键和哈希分区来组织数据)-如果您要“内联”该过程,只需repartition您的Dataset

df.repartition(nPartitions, col)