应用错误收集

我的测试群集很小：

一个主机，该主机上的从机本质上指向自己。另一个从属服务器上的另一个从属服务器指向主服务器。

如果在同一盒子上只有主服务器和从服务器，则该应用程序运行良好，如果在另一个盒子上运行第二个从服务器，则会遇到问题。它与我的应用程序加载数据（正在加载JSON文件）并写出文件的方式有关，我想我必须在所有从属服务器上完全相同地复制数据吗？尽管这对我来说似乎并非微不足道，但由于此spark应用程序的工作方式是在python脚本中运行，该脚本将数据复制到周围以进行搅动，从而真正模拟传入的数据。因此，python脚本复制数据，在cmd调用中运行spark-submit，移动数据，重新复制更多数据，然后重复冲洗。

除了当前在同一主节点上运行的一个从服务器以外，我不确定如何与其他服务器一起运行。或什至我要寻找的解决方案名称。

需要数据加载的Spark提交作业

0 个答案: