当一个节点收集OOM时,群集变得无法响应

时间:2015-09-08 06:58:58

标签: distributed-computing hazelcast

我们使用Hazelcast 3.4.2创建了一个包含三个节点的集群,而我正在使用它 以下问题。

如果一个节点进入OOM,则其他节点无响应。有时那些节点 (除了一个去OOM的人)设法恢复,但恢复时间是不可预测的。

此外,我们添加了两个Hazelcast属性作为JVM参数。但是,群集中仍然存在问题。

  1. hazelcast.client.heartbeat.timeout
  2. hazelcast.max.no.heartbeat.seconds
  3. 请节点表示,通过向上面两个Hazelcast属性提供几个不同的值,多​​次启动集群。

    所以我想知道,这是否是一个知识问题。此外,如果上述情况 是一个知识问题,我们是否有解决此问题的方法。

    由于

1 个答案:

答案 0 :(得分:0)

您的会员是否有足够的空间?当一个成员失败时,必须在较少成员之间分配相同数量的数据。它可能会对他们造成记忆压力。我建议启用详细的GC日志并测试您的方案。