Question

由于我是pyspark的新手，我对我的问题进行了一些研究，但没有一个解决方案适合我。

我想读取一个文本文件，我首先将它放在jupyter笔记本中与我的.py文件相同的文件夹中。为此我运行以下命令：

rdd = sc.textFile("Parcours client.txt")
print(rdd.collect())

我收到此错误：

Input path does not exist: file:/C:/Spark/spark-2.3.0-bin-hadoop2.7/Data Analysis/Parcours client.txt

虽然这正是我放置file.txt的地方，但我从

启动了我的pyspark

C:/Spark/spark-2.3.0-bin-hadoop2.7

我还尝试指出我的txt文件存在的本地方向：

rdd = sc.textFile("C:\\Users\\Jiji\\Desktop\\Data Analysis\\L'Output\\Parcours client.txt")
print(rdd.collect())

我得到同样的错误：

Input path does not exist: file:/Users/Jiji/Desktop/Data Analysis/L'Output/Parcours client.txt

Answer 1

尝试rdd = sc.textFile("Parcours\ client.txt")或rdd = sc.textFile(r"Parcours client.txt")

Answer 2

谢谢大家的帮助。

我试图将我的txt文件放在桌面上的一个文件夹中，名称中没有任何空格并解决了我的问题。所以我运行以下命令：

rdd = sc.textFile('C:\\Users\\Jiji\\Desktop\\Output\\Parcours client.txt')

我认为这个问题是因为路径中的空格。