spark:yarn cluster模式无法读取hdfs路径(没有这样的文件或目录)

时间:2015-09-08 08:45:55

标签: hadoop apache-spark

我在纱线模式下使用spark提交,但我收到此错误:

显然我的输入路径hdfs://缺少一个'/'
我通过了hdfs://master:8020/usr/jimmy/Test/, 但日志文件中的日志输出为hdfs:/master:8020/usr/jimmy/Test/Personal1(我的代码中指定了Personal1
遗漏的'/'显然是问题 我能做什么?

请帮帮我

我的命令:

./bin/spark-submit --master yarn-cluster --class Movie.Movies /usr/jimmy/Move.jar hdfs://master:8020/usr/jimmy/Test/  hdfs://usr/jimmy/result 

Hadoop日志:

15/09/08 16:33:54 ERROR yarn.ApplicationMaster: User class threw exception: hdfs:/master:8020/usr/jimmy/Test/Personal1 (No such file or directory)
java.io.FileNotFoundException: hdfs:/master:8020/usr/jimmy/Test/Personal1 (No such file or directory)

更新: 我在spark官方网站上看到这个。这意味着我必须使用ntfs ??? 我的想法是:masterworker都可以在hdfs路径上读取文件。我尝试(hdfs ls)就可以了。但我不知道为什么我的执行有错误  请指导我

Do I need Hadoop to run Spark?

No, but if you run on a cluster, you will need some form of shared file system (for example, NFS mounted at the same path on each node). If you have this type of filesystem, you can just deploy Spark in standalone mode.

1 个答案:

答案 0 :(得分:0)

作业正在尝试访问hdfs上的输入文件Personal1。
请检查您是否配置了hdfs并将文件推送到其上。

如果是,则尝试通过此路径上的 HDFS Web UI 找到Personal1文件/ usr / jimmy / Test / 例如:http://master:50070/explorer.html#/usr/jimmy/Test/

如果您能够找到该文件,那么您的作业也应该找到该文件。