我正在尝试使用Spark on Scala进行字数统计实验。我能够成功地将文本文件加载到变量(RDD)中,但是当我执行.flatmap,.map和reduceByKey时,我收到附加的错误消息。我是新手,所以任何类型的帮助将不胜感激。请告诉我。capture
答案 0 :(得分:1)
您的程序失败,因为它无法检测Hadoop上的文件
需要以下列格式指定文件
sc.textFile("hdfs://namenodedetails:8020/input.txt")
答案 1 :(得分:0)
您需要提供文件的完整限定路径。由于Spark构建了一个依赖关系图并在调用操作时懒惰地进行评估,因此当您尝试调用操作时,您将面临错误。
最好在使用.first或.take(n)方法从HDFS读取文件后进行调试