Parquet是否保留Dataframe的行顺序

时间:2016-06-22 20:02:38

标签: scala apache-spark parquet

val rows = sqlContext.sparkContext.textFile("in.txt")
val df1 = sqlContext.createDataFrame(rows, schema)
df1.write.mode(SaveMode.Overwrite).parquet("df.pq")
val df2 = sqlContext.read.parquet("df.pq")

为什么df1.collect()df2.collect()有不同的行顺序?我在本地模式下运行Spark 1.5.1。

0 个答案:

没有答案