我将java中的spark数据帧导出到csv文件。因为我想稍后使用unix排序工具对csv文件进行排序,我需要对列进行重新排序,以便首先使用某些列。我们现在打电话给“sort_index”。我怎样才能做到这一点?目前我正在使用以下代码转换为csv:
DataFrame df = sqlContext.parquetFile(somepath);
df.write()
.format("com.databricks.spark.csv")
.option("header", "true")
.save(somepath);
数据框有一些引用字段,因此使用其他列索引进行排序总是会中断。这就是为什么我需要先列一些专栏。
答案 0 :(得分:0)
要避免双引号,请使用以下代码:
df.write()
.format("com.databricks.spark.csv")
.option("header", "true")
.option("quoteMode,"NONE")
.save(somepath);