H2O群集节点行为缓慢

时间:2018-09-20 11:25:00

标签: r h2o

我正在azure群集上运行R软件包h2o 3.20.0.2版。

在拟合了许多h2o模型之后,h2o群集似乎对以下错误消息变得无响应:

  

.h2o .__ checkConnectionHealth()中的警告:   H2O群集节点127.0.0.1:54321的运行缓慢,应进行手动检查。

我尝试使用h2o.shutdown()重置集群,但是问题仍然存在,并且h2o.init()失败。 没有管理员权限,如何才能真正重新启动h2o服务器?将来如何避免此问题?

1 个答案:

答案 0 :(得分:1)

最常见的原因是您已经使用了群集中的所有内存。

选项包括执行以下操作:

  • 启动时要求更大的群集大小
  • 调用h2o.rm或h2o.removeAll删除内存中的对象以释放空间

h2o.shutdown()使用api调用后端以进行协作关闭,但是如果后端已经处于不良状态,则可能无法正常工作。

如果在与H2O服务器相同的主机上运行R,则可以在R中执行诸如system(“ ps -ef”)之类的操作来运行linux shell命令,并尝试以这种方式进行修复,即使没有直接安装也是如此。终端提示。找到h2o java进程并杀死它。