将Scala Dataframe写入CSV文件时应用UTF8编码

时间:2019-10-21 08:35:44

标签: scala dataframe apache-spark utf-8

将数据帧写入Spark2-Scala中的CSV文件时,如何正确应用UTF8编码?我正在使用这个:

df.repartition(1).write.mode(SaveMode.Overwrite)
.format("csv").option("header", true).option("delimiter", "|")
.save(Path)

它不起作用:示例:将é替换为奇怪的字符串。

谢谢。

1 个答案:

答案 0 :(得分:0)

因此,正如@Hristo Iliev所建议的那样,我需要使用以下命令强制进行UTF编码:

df.repartition(1).write.mode(SaveMode.Overwrite)
.format("csv").option("header", true).option("encoding", "UTF-8").option("delimiter", "|")
.save(Path)