由于我是pyspark的新手,我对我的问题进行了一些研究,但没有一个解决方案适合我。
我想读取一个文本文件,我首先将它放在jupyter笔记本中与我的.py文件相同的文件夹中。为此我运行以下命令:
rdd = sc.textFile("Parcours client.txt")
print(rdd.collect())
我收到此错误:
Input path does not exist: file:/C:/Spark/spark-2.3.0-bin-hadoop2.7/Data Analysis/Parcours client.txt
虽然这正是我放置file.txt的地方,但我从
启动了我的pysparkC:/Spark/spark-2.3.0-bin-hadoop2.7
我还尝试指出我的txt文件存在的本地方向:
rdd = sc.textFile("C:\\Users\\Jiji\\Desktop\\Data Analysis\\L'Output\\Parcours client.txt")
print(rdd.collect())
我得到同样的错误:
Input path does not exist: file:/Users/Jiji/Desktop/Data Analysis/L'Output/Parcours client.txt
答案 0 :(得分:0)
尝试rdd = sc.textFile("Parcours\ client.txt")
或rdd = sc.textFile(r"Parcours client.txt")
答案 1 :(得分:0)
谢谢大家的帮助。
我试图将我的txt文件放在桌面上的一个文件夹中,名称中没有任何空格并解决了我的问题。所以我运行以下命令:
rdd = sc.textFile('C:\\Users\\Jiji\\Desktop\\Output\\Parcours client.txt')
我认为这个问题是因为路径中的空格。