我是学习火花的初学者。我正在读一本书“学习Spark by Holden Karau,Andy Konwinski,Patrick Wendell& Matei Zaharia”。
在本书中给出了一个python代码示例
grep
我想知道文件“README.md”在哪里?因为书中没有提供任何信息。而且,每当我尝试运行此代码时都会出错 “输入路径不存在:hdfs://quickstart.cloudera:8020 / user / cloudera / README.md”
我在Codera虚拟机上运行此代码,以便在vmware工作站上运行。
答案 0 :(得分:1)
由于我使用cloudera虚拟机进行spark,因此文件README.md不存在于路径“hdfs://quickstart.cloudera:8020 / user / cloudera / README.md”中。现在,我使用了
lines = sc.textFile("file:///home/cloudera/Desktop/README.md")
Spark将从本地文件系统访问路径“/home/cloudera/Desktop/README.md”中的文件。