为什么spark会在提交作业的机器中填充tmp(spark.local.dir)?

时间:2015-08-20 00:14:48

标签: configuration apache-spark temp

我在独立模式下设置了一个spark 1.2.1群集,其中包含一个主服务器和一些从服务器。然后我让我的数据科学家享受集群的力量。

一切正常。但是,我的数据科学家用来提交火花作业的专用服务器的spark.local.dir逐渐填满。

鉴于这台机器位于集群之外,不是主机,也不是工人/奴隶,我不会认为本地spark.local.dir以任何方式被spark使用。 (为什么会这样?它只显示日志。)

我找不到详细介绍这部分信息的好文档。有人有想法吗?

1 个答案:

答案 0 :(得分:1)

关于您的设置的信息不足以确定,但我猜测作业是在客户端模式下启动的,其中驱动程序将位于您的客户端节点上。

来自spark docs:  在客户端模式下,驱动程序在与提交应用程序的客户端相同的进程中启动。但是,在集群模式下,驱动程序是从集群内的一个Worker进程启动的,客户端进程一旦履行其提交应用程序的责任就退出,而无需等待应用程序完成。

我猜测在客户端模式下,应用程序的驱动程序(在客户端计算机上)需要大量的临时空间来管理其他工作人员。