应用错误收集

Spark Dataframe订单保留。在orderBy数据帧上调用保存操作会保留排序

时间：2016-01-15 20:18:56

标签： spark-dataframe

我从火花壳中运行了一些测试用例。我执行的声明是表格。

read.orderBy（$“p_int”.asc）.write.format（“com.databricks.spark.csv”）.save（“file：///tmp/output.txt”）

输出目录中的内容似乎总是排序。但是我找不到spark中的任何文档，甚至与DataFrameWriter在保留分区顺序或行顺序方面提供的任何保证相关。

问题是我是否可以始终期望对目标文件中的数据进行排序？并且请添加任何指向正确文档的链接。

1 个答案:

答案 0 :(得分：0)

如果在保存之前合并到1个分区，则输出将被排序。小心思考，当读回火花中的.csv时，如果你的spark配置spark.default.parallelism大于1，订购将会丢失。