我从火花壳中运行了一些测试用例。我执行的声明是表格。
read.orderBy($“p_int”.asc).write.format(“com.databricks.spark.csv”).save(“file:///tmp/output.txt”)
输出目录中的内容似乎总是排序。但是我找不到spark中的任何文档,甚至与DataFrameWriter在保留分区顺序或行顺序方面提供的任何保证相关。
问题是我是否可以始终期望对目标文件中的数据进行排序?并且请添加任何指向正确文档的链接。
答案 0 :(得分:0)
如果在保存之前合并到1个分区,则输出将被排序。小心思考,当读回火花中的.csv时,如果你的spark配置spark.default.parallelism
大于1,订购将会丢失。