pyspark:UnicodeDecodeError:'ascii'编解码器无法解码位置1055的字节0xe5:序数不在范围内(128)

时间:2019-05-20 02:42:58

标签: apache-spark pyspark

我是pyspark的新手,我编写了python代码以rdd格式读取csv。 但是我同意UnicodeDecodeError:'ascii'编解码器无法解码位置1055的字节0xe5:序数不在范围(128)中。

这是我尝试但不起作用的解决方案: PySpark — UnicodeEncodeError: 'ascii' codec can't encode character

import pandas as pd
from pyspark.sql import SparkSession
from pyspark import SparkContext
from pyspark.sql import SQLContext
from pyspark.sql.types import *


spark=SparkSession.builder.appName("hj").getOrCreate()
sc = SparkContext.getOrCreate()

lines = sc.textFile('/hello.csv')


lines = lines.filter(lambda row:row != header)
header = lines.first()
print(header)

在提交火花之前,我已经输入了“ export PYTHONIOENCODING = utf8”,但是没有用。谁能帮我?非常感谢你!

0 个答案:

没有答案