在制作中永远运行火花流

时间:2016-06-10 11:41:45

标签: linux apache-spark pyspark yarn cloudera

我正在开发一个火花流应用程序,它基本上从kafka读取数据并定期保存到HDFS。

我正在YARN上运行pyspark。

我的问题更多是出于生产目的。现在,我像这样运行我的应用程序:

spark-submit stream.py

想象一下,您将把这个火花流应用程序(在python中)提供给客户端,为了让它永远运行,您会做些什么?您不会只是提供此文件并说出"在终端上运行此操作"。这太不专业了。

我想要做的是将作业提交到群集(或本地处理器),而不必在控制台上查看日志,或使用像linux screen这样的解决方案在后台运行它(因为它似乎太不专业了。)

永久性地向群集提交火花流式作业的最专业,最有效的方法是什么?

我希望我毫不含糊。谢谢!

1 个答案:

答案 0 :(得分:0)

您可以使用spark-jobserver,它提供了用于上传jar并运行它的休息界面。您可以在spark-jobserver找到文档。