Pyspark无法读取带有特殊字符(ø)作为分隔符的csv文件

时间:2020-07-20 13:49:29

标签: apache-spark pyspark apache-spark-sql pyspark-dataframes

我的csv文件如下:

idøageøname
1ø25øAshutosh
2ø21øShipra
3ø11øNimisha
4ø15øBhavya
5ø7øSammridha

我无法读取此csv文件(定界符为ø)。下面的Pyspark命令将整行读为一列而不是3。

df = spark.read.option("header", "true").option("sep", "ø").csv('file_path.csv')

1 个答案:

答案 0 :(得分:1)

我已经在计算机上创建了相同的csv,并且可以使用“ ISO-8859-1”读取数据。

df = spark.read.option("header", "true").option("encoding", "ISO-8859-1").option("sep", "ø").csv('file_path.csv')

有关编码的更多信息,请检查https://en.wikipedia.org/wiki/ISO/IEC_8859-1和代码页布局