如何使用Zeppelin与一群人合作?

时间:2018-03-21 18:57:00

标签: hadoop pyspark apache-zeppelin

我试图在我的Hadoop集群上使用Zeppelin:

  1. 1个边缘节点
  2. 1个名称节点
  3. 1个辅助节点
  4. 16个数据节点。
  5. 节点规范: CPU:Intel(R)Xeon(R)CPU E5345 @ 2.33GHz,8核 内存:32 GB DDR2

    当超过20个人想要同时使用此工具时,我遇到了一些问题。 这主要是在我使用pyspark时 - 1.6或2.0。 即使我设置 zeppelin.execution.memory = 512 mb 并且 spark.executor内存 = 512 mb 仍然是相同。我已经尝试了一些解释器选项(对于pyspark),例如作用域/隔离的Per User和其他仍然相同。全球选择稍微好一些,但过了一段时间我还不能做任何事情。我正在寻找Edge Node,我看到内存正在快速上升。我想仅将Edge Node用作接入点。

1 个答案:

答案 0 :(得分:0)

如果您的部署模式是yarn客户端,那么您的驱动程序将始终是接入点服务器(在您的情况下为边缘节点)。

每个笔记本(Ticket模式)或每个用户(per note模式)都会在驱动程序和执行程序上实例化一个spark上下文分配内存。减少per user将减轻群集,但不会减轻驱动程序。请尝试减少spark.executor.memory

Spark解释器可以实例化spark.driver.memorygloballyper note,我不认为共享相同的解释器(per user)是您的解决方案,因为你一次只能运行一份工作。用户最终会等待每个其他人的单元格进行编译,然后才能自己编译。