Windows上的Pyspark:输入路径不存在

时间:2018-04-04 12:00:02

标签: windows apache-spark pyspark

由于我是pyspark的新手,我对我的问题进行了一些研究,但没有一个解决方案适合我。

我想读取一个文本文件,我首先将它放在jupyter笔记本中与我的.py文件相同的文件夹中。为此我运行以下命令:

rdd = sc.textFile("Parcours client.txt")
print(rdd.collect())

我收到此错误:

Input path does not exist: file:/C:/Spark/spark-2.3.0-bin-hadoop2.7/Data Analysis/Parcours client.txt

虽然这正是我放置file.txt的地方,但我从

启动了我的pyspark
C:/Spark/spark-2.3.0-bin-hadoop2.7

我还尝试指出我的txt文件存在的本地方向:

rdd = sc.textFile("C:\\Users\\Jiji\\Desktop\\Data Analysis\\L'Output\\Parcours client.txt")
print(rdd.collect())

我得到同样的错误:

Input path does not exist: file:/Users/Jiji/Desktop/Data Analysis/L'Output/Parcours client.txt

2 个答案:

答案 0 :(得分:0)

尝试rdd = sc.textFile("Parcours\ client.txt")rdd = sc.textFile(r"Parcours client.txt")

另见: whitespaces in the path of windows filepath

答案 1 :(得分:0)

谢谢大家的帮助。

我试图将我的txt文件放在桌面上的一个文件夹中,名称中没有任何空格并解决了我的问题。所以我运行以下命令:

rdd = sc.textFile('C:\\Users\\Jiji\\Desktop\\Output\\Parcours client.txt')

我认为这个问题是因为路径中的空格。