Question

我有两台机器名为：ubuntu1和ubuntu2。

在ubuntu1中，我在Spark Standalone Cluster和ubuntu2中启动了主节点，我开始使用worker（slave）。

我正在尝试执行github上提供的示例workCount。

当我提交申请时，工作人员会发送错误消息

java.io.FileNotFoundException ：文件文件：/home/ubuntu1/demo/test.txt不存在。

我的命令行是

./spark-submit --master spark://ubuntu1-VirtualBox:7077 --deploy-mode cluster --clas br.com.wordCount.App -v --name"Word Count" /home/ubuntu1/demo/wordCount.jar /home/ubuntu1/demo/test.txt

文件test.txt只能留在一台机器上？

注意：主人和工人在不同的机器上。

谢谢

Answer 1

我在加载 JSON 文件时遇到了同样的问题。我默认 Windows 将文件格式存储为 Textfile，而不管名称如何。识别文件格式，然后您可以轻松加载。

示例：认为您将文件保存为 test.JSON。但默认情况下，窗口会向其添加 .txt。

检查并尝试再次运行。我希望这个想法能解决你的问题。

谢谢。

Answer 2

您应该将文件放在hdfs上，方法是转到该文件夹并输入：

hdfs dfs -put <file>

否则，每个节点必须通过在每台计算机上存在相同的路径文件夹来访问它。

不要忘记在执行此操作后将文件：/更改为hdfs：/

找不到文件 - Spark独立群集

2 个答案: