Spark Dataframe订单保留。在orderBy数据帧上调用保存操作会保留排序

时间:2016-01-15 20:18:56

标签: spark-dataframe

我从火花壳中运行了一些测试用例。我执行的声明是表格。

read.orderBy($“p_int”.asc).write.format(“com.databricks.spark.csv”).save(“file:///tmp/output.txt”)

输出目录中的内容似乎总是排序。但是我找不到spark中的任何文档,甚至与DataFrameWriter在保留分区顺序或行顺序方面提供的任何保证相关。

问题是我是否可以始终期望对目标文件中的数据进行排序?并且请添加任何指向正确文档的链接。

1 个答案:

答案 0 :(得分:0)

如果在保存之前合并到1个分区,则输出将被排序。小心思考,当读回火花中的.csv时,如果你的spark配置spark.default.parallelism大于1,订购将会丢失。