Scala中的Spark字数(在Apache Sandbox中运行)

时间:2017-05-16 02:19:28

标签: scala hadoop apache-spark

我正在尝试使用Spark on Scala进行字数统计实验。我能够成功地将文本文件加载到变量(RDD)中,但是当我执行.flatmap,.map和reduceByKey时,我收到附加的错误消息。我是新手,所以任何类型的帮助将不胜感激。请告诉我。capture

2 个答案:

答案 0 :(得分:1)

您的程序失败,因为它无法检测Hadoop上的文件

需要以下列格式指定文件

sc.textFile("hdfs://namenodedetails:8020/input.txt")

答案 1 :(得分:0)

您需要提供文件的完整限定路径。由于Spark构建了一个依赖关系图并在调用操作时懒惰地进行评估,因此当您尝试调用操作时,您将面临错误。

最好在使用.first或.take(n)方法从HDFS读取文件后进行调试