输入路径不存在错误apache spark

时间:2017-01-12 19:39:54

标签: python hadoop apache-spark pyspark

我是学习火花的初学者。我正在读一本书“学习Spark by Holden Karau,Andy Konwinski,Patrick Wendell& Matei Zaharia”。

在本书中给出了一个python代码示例

grep

我想知道文件“README.md”在哪里?因为书中没有提供任何信息。而且,每当我尝试运行此代码时都会出错 “输入路径不存在:hdfs://quickstart.cloudera:8020 / user / cloudera / README.md”

我在Codera虚拟机上运行此代码,以便在vmware工作站上运行。

1 个答案:

答案 0 :(得分:1)

由于我使用cloudera虚拟机进行spark,因此文件README.md不存在于路径“hdfs://quickstart.cloudera:8020 / user / cloudera / README.md”中。现在,我使用了

lines = sc.textFile("file:///home/cloudera/Desktop/README.md")

Spark将从本地文件系统访问路径“/home/cloudera/Desktop/README.md”中的文件。