Pyspark-读取ANSI格式的csv文件并保留原始文本

时间:2020-10-10 15:47:26

标签: python pyspark

我正在读取一个csv文件,该文件在这样的列中具有一些值。

MÉXICO
ATLÁNTICO

当我在notepad ++中打开csv文件时,它说它是ANSI编码。 我尝试读取编码为'utf8'和'ISO-8859-1'的文件,但是在处理值如下所示更改后-

在option(“ encoding”,“ utf-8”)

M�XICO
ATL�NTICO

在选项中(“编码”,“ ISO-8859-1”)

M?XICO
ATL?NTICO

这是spark读取语句

spark.read.format("csv").option("quote", "\"").option("escape", "\"").option('multiLine', True).option("encoding", "ISO-8859-1").option("header", "true").load("country.csv")

option(“ encoding”,“ mbcs”)和option(“ encoding”,“ ansi”)给出错误。

我该怎么做才能保留输入文件中的原始值?预先感谢

0 个答案:

没有答案