我试图在我的Hadoop集群上使用Zeppelin:
节点规范: CPU:Intel(R)Xeon(R)CPU E5345 @ 2.33GHz,8核 内存:32 GB DDR2
当超过20个人想要同时使用此工具时,我遇到了一些问题。 这主要是在我使用pyspark时 - 1.6或2.0。 即使我设置 zeppelin.execution.memory = 512 mb 并且 spark.executor内存 = 512 mb 仍然是相同。我已经尝试了一些解释器选项(对于pyspark),例如作用域/隔离的Per User和其他仍然相同。全球选择稍微好一些,但过了一段时间我还不能做任何事情。我正在寻找Edge Node,我看到内存正在快速上升。我想仅将Edge Node用作接入点。
答案 0 :(得分:0)
如果您的部署模式是yarn客户端,那么您的驱动程序将始终是接入点服务器(在您的情况下为边缘节点)。
每个笔记本(Ticket
模式)或每个用户(per note
模式)都会在驱动程序和执行程序上实例化一个spark上下文分配内存。减少per user
将减轻群集,但不会减轻驱动程序。请尝试减少spark.executor.memory
。
Spark解释器可以实例化spark.driver.memory
,globally
或per note
,我不认为共享相同的解释器(per user
)是您的解决方案,因为你一次只能运行一份工作。用户最终会等待每个其他人的单元格进行编译,然后才能自己编译。