在Django Web应用程序中使Spark上下文保持活动状态

时间:2018-10-10 05:29:43

标签: python django apache-spark

我正在构建一个Django应用程序,我希望我的Django服务器将任务提交到我的Spark集群(可能由Yarn管理,也可能不受它管理),并以JSON的形式返回结果。这些任务将是异步的(因此我将使用Celery并从中获取进度更新)。

我当前面临的问题是每次调用任务,初始化Spark Context,花相当长的时间才能启动我的任务。有没有办法让我的SparkContext()保持生命,以便我可以继续向其提交任务?

是否可以在不调用spark-submit的情况下将作业提交到Spark集群?

我试图阅读有关Spark Job ServerApache Livy的信息,但我不了解如何在体系结构中使用它。

注意:到目前为止,我正在芹菜任务中使用spark-submit来运行作业。

0 个答案:

没有答案