使用spark和scala进行文件写入之间的区别和优点?

时间:2018-07-04 07:23:21

标签: scala apache-spark dataframe dataset

DF().write
  .format("com.databricks.spark.csv")
  .save("filepath/selectedDataset.csv") 

vs

scala.tools.nsc.io.File("/Users/saravana-6868/Desktop/hello.txt").writeAll("String"))

在上面的代码中,我曾经使用数据帧和scala编写文件。上面的代码有什么区别?

1 个答案:

答案 0 :(得分:1)

第一段代码特定于SPARK API,该API将数据帧写入csv格式的文件中。您可以使用此方法写入hdfs或本地文件系统。即使您可以重新分区并并行化您的写入。第二段代码是SCALA API,它只能在本地文件系统中编写。您无法并行化它。第一个代码管理整个集群来完成其工作,而第二个代码则没有。