apache-spark - 如何在spark2-submission之间保持Spark集群的活动？ - Thinbug

如何在spark2-submission之间保持Spark集群的活动？

时间：2017-12-05 17:59:17

标签： apache-spark pyspark

我需要通过执行spark2-submit来处理输入文件时通过pyspark脚本处理输入数据文件。我观察到的是，对于每个spark2 - submit，spark在进行最新输入文件的数据处理之前会进行大量的初始化。这导致延迟。如何在spark2-submission之间保持Spark集群的活动？

单独但相关的问题：除了spark2-submit之外，还有哪些其他机制可以用来提交有效载荷？

提前感谢您的见解。

1 个答案:

答案 0 :(得分：0)

<强>群集

除非您在local模式下使用Spark（实际上没有集群），否则将在不同的应用程序之间保留集群。

SparkContext和SparkSession

是本地对象。活的时间不能超过应用程序。如果初始化时间不可接受，您可以调整应用程序以使用像Livy这样的应用程序服务。