我是pyspark的新手,我编写了python代码以rdd格式读取csv。 但是我同意UnicodeDecodeError:'ascii'编解码器无法解码位置1055的字节0xe5:序数不在范围(128)中。
这是我尝试但不起作用的解决方案: PySpark — UnicodeEncodeError: 'ascii' codec can't encode character
import pandas as pd
from pyspark.sql import SparkSession
from pyspark import SparkContext
from pyspark.sql import SQLContext
from pyspark.sql.types import *
spark=SparkSession.builder.appName("hj").getOrCreate()
sc = SparkContext.getOrCreate()
lines = sc.textFile('/hello.csv')
lines = lines.filter(lambda row:row != header)
header = lines.first()
print(header)
在提交火花之前,我已经输入了“ export PYTHONIOENCODING = utf8”,但是没有用。谁能帮我?非常感谢你!