火花数据帧到csv第一列

时间:2016-04-13 01:20:42

标签: csv apache-spark export-to-csv spark-dataframe

我将java中的spark数据帧导出到csv文件。因为我想稍后使用unix排序工具对csv文件进行排序,我需要对列进行重新排序,以便首先使用某些列。我们现在打电话给“sort_index”。我怎样才能做到这一点?目前我正在使用以下代码转换为csv:

DataFrame df = sqlContext.parquetFile(somepath);
df.write()
  .format("com.databricks.spark.csv")
  .option("header", "true")
  .save(somepath);

数据框有一些引用字段,因此使用其他列索引进行排序总是会中断。这就是为什么我需要先列一些专栏。

1 个答案:

答案 0 :(得分:0)

要避免双引号,请使用以下代码:      df.write() .format("com.databricks.spark.csv") .option("header", "true") .option("quoteMode,"NONE") .save(somepath);