标签: apache-spark
在SPARK思维方式中似乎很奇怪。还是我弄错了?
答案 0 :(得分:0)
Spark Bucket在磁盘上等同于分区(使用特定的键和哈希分区来组织数据)-如果您要“内联”该过程,只需repartition您的Dataset
repartition
Dataset
df.repartition(nPartitions, col)