我正在运行独立 Spark集群,并在客户端模式下使用spark-submit
提交我的应用程序(用SparkR编写)。我有一组必须根据用户输入运行的应用程序,因此我无法使其保持运行状态。每次提交申请并开始处理数据,都需要15到20秒。
可以以任何方式减少此时间吗?我已经在驱动程序机器上阅读了having a webserver,但是不确定如何完成。另外,我没有使用任何群集管理器(例如YARN),而是一个独立的群集。
此外,客户端或群集上的资源(例如CPU内核和内存)是否会影响启动时间?
答案 0 :(得分:0)
使用Spark作业服务器在应用程序之间共享SparkContext可以帮助您节省启动时间。 (我不确定您是否需要此功能,因为您的启动时间约为20秒,似乎很短。)
提供上下文共享的流行Spark作业服务器是:
此外,客户端或群集上的资源(例如CPU内核和内存)是否会影响启动时间?
不是。可用资源只会影响应用程序的执行时间。