Question

我正在尝试使用Spark on Scala进行字数统计实验。我能够成功地将文本文件加载到变量（RDD）中，但是当我执行.flatmap，.map和reduceByKey时，我收到附加的错误消息。我是新手，所以任何类型的帮助将不胜感激。请告诉我。capture

Answer 1

您的程序失败，因为它无法检测Hadoop上的文件

需要以下列格式指定文件

sc.textFile("hdfs://namenodedetails:8020/input.txt")

Answer 2

您需要提供文件的完整限定路径。由于Spark构建了一个依赖关系图并在调用操作时懒惰地进行评估，因此当您尝试调用操作时，您将面临错误。

最好在使用.first或.take（n）方法从HDFS读取文件后进行调试