如何根据火花数据帧分区中的列存储数据,以及如何在单个分区中具有唯一的列值

时间:2018-11-02 10:53:10

标签: java apache-spark-sql

DataFrame d = df.repartition((4), df.col("col"));

我正在使用spark 1.6版本和Java代码,df是保存整个数据的数据框。分区列中的数据复制为 SaveAsTextFile到本地,该分区存储用于在数据帧分区期间提到的大量数据的不同键列。

是否有另一种方法可以将数据作为分区值存储到本地?

0 个答案:

没有答案