我在Scala / Spark:
myDataframe
.orderBy("date")
.write
.csv(...)
生成的CSV是:
part-00000-xxx.csv
part-00001-xxx.csv
part-00002-xxx.csv
问题:
您是否知道在运行前面的代码之后,是否可以保证将“日期”顺序保留在单个文件中?
文件之间是否也是如此?我的意思是保证00001部分中的“日期”要优于部分00000中的“日期”吗?
如果没有,您能否发布一个满足上述两个要求的代码?
答案 0 :(得分:0)
如果要在保存订单前执行.coallesce(1),则将保留。
您可以添加具有顺序索引的列,也许会对您有所帮助。
myDataframe
.withColumn("order", row_number().over(Window.orderBy('date)))
.write
.csv(...)