我正在构建一个Django应用程序,我希望我的Django服务器将任务提交到我的Spark集群(可能由Yarn管理,也可能不受它管理),并以JSON的形式返回结果。这些任务将是异步的(因此我将使用Celery并从中获取进度更新)。
我当前面临的问题是每次调用任务,初始化Spark Context,花相当长的时间才能启动我的任务。有没有办法让我的SparkContext()
保持生命,以便我可以继续向其提交任务?
是否可以在不调用spark-submit
的情况下将作业提交到Spark集群?
我试图阅读有关Spark Job Server和Apache Livy的信息,但我不了解如何在体系结构中使用它。
注意:到目前为止,我正在芹菜任务中使用spark-submit
来运行作业。