您好我以交互方式使用pyspark。我想我没有正确加载LOCAL文件。
如何查看当前目录,以便我可以访问浏览器来查看该实际文件?
或者是pyspark的默认目录?感谢
答案 0 :(得分:3)
除非您在同一路径下的所有工作人员中拥有相同的文件,否则您无法加载本地文件。例如,如果要在spark中读取data.csv文件,请将此文件复制到相同路径下的所有工作程序(例如/tmp/data.csv)。现在您可以使用sc.textFile(" file:///tmp/data.csv")来创建RDD。
当前工作目录是您启动pyspark的文件夹。您可以使用ipython启动pyspark并运行pwd命令来检查工作目录。 [在spark-env.sh中设置PYSPARK_DRIVER_PYTHON = / path / to / ipython以使用ipython]