Question

我必须将我的spark数据帧输出写入带有“| ^ |”Delimiter的csv文件中。我想这样做。

df.write.format("csv").option("delimiter", "\\|\\^\\|")

但低于错误

java.lang.IllegalArgumentException：分隔符不支持的特殊字符：\ | \ ^ \ |

如何添加UTF-8-BOM编码输出文件，默认情况下是UTF-8？

在java中，如果我在文件的开头添加“\ uFEFF”，文件的编码将更改为UTF8-BOM。现在我如何在spark csv中附加此char？

此外，如果我采用以下方法df.rdd.map(x=>x.mkString("|^|")).saveAsTextFile("dir path to store")

我如何根据数据框中的列对数据进行分区？

Answer 1

刚刚放

 df.write.format("csv").option("delimiter","^").csv("dir path to store")

对于MULTI字符，您可以使用以下代码

 df.rdd.map(x=>x.mkString("|^|")).saveAsTextFile("dir path to store")