Spark Dataframe写作Json的工作方式不同于Spark Data框架写为Parquet

时间:2018-04-03 17:52:19

标签: apache-spark apache-spark-sql spark-dataframe

我尝试使用spark将CSV文件转换为JSON和Parquet。我正在使用带有火花版2.2的aws EMR 5.10

下面是我为转换为JSON而编写的示例代码

val data1 = sql("select * from csv_table")
data1.write.json("s3://sparktest/jsonout/")

当执行上面的代码时,数据直接写入s3目录,文件名为" part-000"

接下来我尝试了镶木地板转换

val data1 = sql("select * from csv_table")
data1.write.parquet("s3://sparktest/parquetout/")

以上代码执行时首先直接创建一个临时的" _temporary"在S3输出位置以及稍后从临时位置移动文件。

为什么数据帧写入操作在两种情况下都表现不同?

0 个答案:

没有答案