我尝试使用spark将CSV文件转换为JSON和Parquet。我正在使用带有火花版2.2的aws EMR 5.10
下面是我为转换为JSON而编写的示例代码
val data1 = sql("select * from csv_table")
data1.write.json("s3://sparktest/jsonout/")
当执行上面的代码时,数据直接写入s3目录,文件名为" part-000"
接下来我尝试了镶木地板转换
val data1 = sql("select * from csv_table")
data1.write.parquet("s3://sparktest/parquetout/")
以上代码执行时首先直接创建一个临时的" _temporary"在S3输出位置以及稍后从临时位置移动文件。
为什么数据帧写入操作在两种情况下都表现不同?