python / pyspark-从csv读取特殊字符并将其写回到文件

时间:2020-10-09 04:12:24

标签: python pandas pyspark

我正在读取一个csv文件,该文件在像这样的列中有一些值-

MÉXICO
ATLÁNTICO

我正在读取编码为'utf8'的文件,但是在处理值如下更改后

M�XICO
ATL�NTICO

我该怎么做才能保留输入文件中的原始值。

编辑-也尝试过utf-16和ISO-8859-1。但也无济于事。

1 个答案:

答案 0 :(得分:1)

您的输入文件可能未采用utf8编码。 您可以在从文件读取之前将其转换为utf8。那应该可以解决您的问题。

这是一个堆栈溢出link,用于将CSV从非utf8编码转换为utf8编码。