我有两台机器名为:ubuntu1和ubuntu2。
在ubuntu1中,我在Spark Standalone Cluster和ubuntu2中启动了主节点,我开始使用worker(slave)。
我正在尝试执行github上提供的示例workCount。
当我提交申请时,工作人员会发送错误消息
java.io.FileNotFoundException :文件文件:/home/ubuntu1/demo/test.txt不存在。
我的命令行是
./spark-submit --master spark://ubuntu1-VirtualBox:7077 --deploy-mode cluster --clas br.com.wordCount.App -v --name"Word Count" /home/ubuntu1/demo/wordCount.jar /home/ubuntu1/demo/test.txt
文件test.txt只能留在一台机器上?
注意:主人和工人在不同的机器上。
谢谢
答案 0 :(得分:1)
我在加载 JSON 文件时遇到了同样的问题。我默认 Windows 将文件格式存储为 Textfile,而不管名称如何。识别文件格式,然后您可以轻松加载。
示例:认为您将文件保存为 test.JSON
。但默认情况下,窗口会向其添加 .txt
。
检查并尝试再次运行。 我希望这个想法能解决你的问题。
谢谢。
答案 1 :(得分:0)
您应该将文件放在hdfs上,方法是转到该文件夹并输入:
hdfs dfs -put <file>
否则,每个节点必须通过在每台计算机上存在相同的路径文件夹来访问它。
不要忘记在执行此操作后将文件:/更改为hdfs:/