spark将数据帧保存到多个csv文件

时间:2016-08-04 12:47:26

标签: python csv pyspark spark-dataframe

这个问题在这里有部分答案:Write to multiple outputs by key Spark - one Spark job

但我想将Dataframe保存到多个csv文件中。

df =  sqlContext.createDataFrame([Row(name=u'name1', website=u'http://1', url=u'1'),
 Row(name=u'name2', website=u'http://1', url=u'1'),
 Row(name=u'name3', website=u'https://fsadf', url=u'2'),
 Row(name=u'name4', website=None, url=u'3')])

df.write.format('com.databricks.spark.csv').partitionBy("name").save("dataset.csv")

我正在使用spark-csv(https://github.com/databricks/spark-csv)来处理csv数据。

还有一件事,df.write.partitionBy("column").json("dataset"),将数据保存到多个目录,如column=value1, column=value2等,但数据本身不存在于列中。

如果我需要输出数据集中的那列?

0 个答案:

没有答案