Question

我将java中的spark数据帧导出到csv文件。因为我想稍后使用unix排序工具对csv文件进行排序，我需要对列进行重新排序，以便首先使用某些列。我们现在打电话给“sort_index”。我怎样才能做到这一点？目前我正在使用以下代码转换为csv：

DataFrame df = sqlContext.parquetFile(somepath);
df.write()
  .format("com.databricks.spark.csv")
  .option("header", "true")
  .save(somepath);

数据框有一些引用字段，因此使用其他列索引进行排序总是会中断。这就是为什么我需要先列一些专栏。

Answer 1

要避免双引号，请使用以下代码： df.write() .format("com.databricks.spark.csv") .option("header", "true") .option("quoteMode,"NONE") .save(somepath);