val rows = sqlContext.sparkContext.textFile("in.txt")
val df1 = sqlContext.createDataFrame(rows, schema)
df1.write.mode(SaveMode.Overwrite).parquet("df.pq")
val df2 = sqlContext.read.parquet("df.pq")
为什么df1.collect()
和df2.collect()
有不同的行顺序?我在本地模式下运行Spark 1.5.1。