找不到文件 - Spark独立群集

时间:2017-09-11 13:52:35

标签: java apache-spark

我有两台机器名为:ubuntu1和ubuntu2。

在ubuntu1中,我在Spark Standalone Cluster和ubuntu2中启动了主节点,我开始使用worker(slave)。

我正在尝试执行github上提供的示例workCount

当我提交申请时,工作人员会发送错误消息

java.io.FileNotFoundException :文件文件:/home/ubuntu1/demo/test.txt不存在。

我的命令行是

./spark-submit --master spark://ubuntu1-VirtualBox:7077 --deploy-mode cluster --clas br.com.wordCount.App -v --name"Word Count" /home/ubuntu1/demo/wordCount.jar /home/ubuntu1/demo/test.txt

文件test.txt只能留在一台机器上?

注意:主人和工人在不同的机器上。

谢谢

2 个答案:

答案 0 :(得分:1)

我在加载 JSON 文件时遇到了同样的问题。我默认 Windows 将文件格式存储为 Textfile,而不管名称如何。识别文件格式,然后您可以轻松加载。

示例:认为您将文件保存为 test.JSON。但默认情况下,窗口会向其添加 .txt

检查并尝试再次运行。 我希望这个想法能解决你的问题。

谢谢。

答案 1 :(得分:0)

您应该将文件放在hdfs上,方法是转到该文件夹​​并输入:

hdfs dfs -put <file>

否则,每个节点必须通过在每台计算机上存在相同的路径文件夹来访问它。

不要忘记在执行此操作后将文件:/更改为hdfs:/