应用错误收集

我试图在我的Hadoop集群上使用Zeppelin：

1个边缘节点
1个名称节点
1个辅助节点
16个数据节点。

节点规范： CPU：Intel（R）Xeon（R）CPU E5345 @ 2.33GHz，8核内存：32 GB DDR2

当超过20个人想要同时使用此工具时，我遇到了一些问题。这主要是在我使用pyspark时 - 1.6或2.0。即使我设置 zeppelin.execution.memory = 512 mb 并且 spark.executor内存 = 512 mb 仍然是相同。我已经尝试了一些解释器选项（对于pyspark），例如作用域/隔离的Per User和其他仍然相同。全球选择稍微好一些，但过了一段时间我还不能做任何事情。我正在寻找Edge Node，我看到内存正在快速上升。我想仅将Edge Node用作接入点。

如果您的部署模式是yarn客户端，那么您的驱动程序将始终是接入点服务器（在您的情况下为边缘节点）。

每个笔记本（Ticket模式）或每个用户（per note模式）都会在驱动程序和执行程序上实例化一个spark上下文分配内存。减少per user将减轻群集，但不会减轻驱动程序。请尝试减少spark.executor.memory。

Spark解释器可以实例化spark.driver.memory，globally或per note，我不认为共享相同的解释器（per user）是您的解决方案，因为你一次只能运行一份工作。用户最终会等待每个其他人的单元格进行编译，然后才能自己编译。

如何使用Zeppelin与一群人合作？

1 个答案: