应用错误收集

我正在读取一个csv文件，该文件在这样的列中具有一些值。

MÉXICO
ATLÁNTICO

当我在notepad ++中打开csv文件时，它说它是ANSI编码。我尝试读取编码为'utf8'和'ISO-8859-1'的文件，但是在处理值如下所示更改后-

在option（“ encoding”，“ utf-8”）

Mï¿½XICO
ATLï¿½NTICO

在选项中（“编码”，“ ISO-8859-1”）

M?XICO
ATL?NTICO

这是spark读取语句

spark.read.format("csv").option("quote", "\"").option("escape", "\"").option('multiLine', True).option("encoding", "ISO-8859-1").option("header", "true").load("country.csv")

option（“ encoding”，“ mbcs”）和option（“ encoding”，“ ansi”）给出错误。

我该怎么做才能保留输入文件中的原始值？预先感谢

Pyspark-读取ANSI格式的csv文件并保留原始文本

0 个答案: