需要数据加载的Spark提交作业

时间:2018-07-09 22:57:08

标签: apache-spark pyspark

我的测试群集很小:

一个主机,该主机上的从机本质上指向自己。另一个从属服务器上的另一个从属服务器指向主服务器。

如果在同一盒子上只有主服务器和从服务器,则该应用程序运行良好,如果在另一个盒子上运行第二个从服务器,则会遇到问题。它与我的应用程序加载数据(正在加载JSON文件)并写出文件的方式有关,我想我必须在所有从属服务器上完全相同地复制数据吗?尽管这对我来说似乎并非微不足道,但由于此spark应用程序的工作方式是在python脚本中运行,该脚本将数据复制到周围以进行搅动,从而真正模拟传入的数据。因此,python脚本复制数据,在cmd调用中运行spark-submit,移动数据,重新复制更多数据,然后重复冲洗。

除了当前在同一主节点上运行的一个从服务器以外,我不确定如何与其他服务器一起运行。或什至我要寻找的解决方案名称。

0 个答案:

没有答案