应用错误收集

时间：2015-08-20 00:14:48

标签： configuration apache-spark temp

我在独立模式下设置了一个spark 1.2.1群集，其中包含一个主服务器和一些从服务器。然后我让我的数据科学家享受集群的力量。

一切正常。但是，我的数据科学家用来提交火花作业的专用服务器的spark.local.dir逐渐填满。

鉴于这台机器位于集群之外，不是主机，也不是工人/奴隶，我不会认为本地spark.local.dir以任何方式被spark使用。（为什么会这样？它只显示日志。）

我找不到详细介绍这部分信息的好文档。有人有想法吗？

答案 0 :(得分：1)

关于您的设置的信息不足以确定，但我猜测作业是在客户端模式下启动的，其中驱动程序将位于您的客户端节点上。

来自spark docs：在客户端模式下，驱动程序在与提交应用程序的客户端相同的进程中启动。但是，在集群模式下，驱动程序是从集群内的一个Worker进程启动的，客户端进程一旦履行其提交应用程序的责任就退出，而无需等待应用程序完成。

我猜测在客户端模式下，应用程序的驱动程序（在客户端计算机上）需要大量的临时空间来管理其他工作人员。