我正在开发一个火花流应用程序,它基本上从kafka读取数据并定期保存到HDFS。
我正在YARN上运行pyspark。
我的问题更多是出于生产目的。现在,我像这样运行我的应用程序:
spark-submit stream.py
想象一下,您将把这个火花流应用程序(在python中)提供给客户端,为了让它永远运行,您会做些什么?您不会只是提供此文件并说出"在终端上运行此操作"。这太不专业了。
我想要做的是将作业提交到群集(或本地处理器),而不必在控制台上查看日志,或使用像linux screen这样的解决方案在后台运行它(因为它似乎太不专业了。)
永久性地向群集提交火花流式作业的最专业,最有效的方法是什么?
我希望我毫不含糊。谢谢!