减少Apache Spark启动时间

时间:2018-09-17 09:10:10

标签: apache-spark spark-submit

我正在运行独立 Spark集群,并在客户端模式下使用spark-submit提交我的应用程序(用SparkR编写)。我有一组必须根据用户输入运行的应用程序,因此我无法使其保持运行状态。每次提交申请并开始处理数据,都需要15到20秒。

可以以任何方式减少此时间吗?我已经在驱动程序机器上阅读了having a webserver,但是不确定如何完成。另外,我没有使用任何群集管理器(例如YARN),而是一个独立的群集。

此外,客户端或群集上的资源(例如CPU内核和内存)是否会影响启动时间?

1 个答案:

答案 0 :(得分:0)

使用Spark作业服务器在应用程序之间共享SparkContext可以帮助您节省启动时间。 (我不确定您是否需要此功能,因为您的启动时间约为20秒,似乎很短。)

提供上下文共享的流行Spark作业服务器是:

  

此外,客户端或群集上的资源(例如CPU内核和内存)是否会影响启动时间?

不是。可用资源只会影响应用程序的执行时间。