我们刚刚将我们的系统投入生产,我们在生产系统上拥有大量用户。我们的服务器一直在失败,我们不确定原因。它似乎从一个服务器开始,然后它选择一个新的主服务器,然后几分钟后,所有服务器都在集群中关闭。我已将其设置为将所有写入发送到读取数据库并将写入保留给主数据库。我查看了日志,似乎无法找到根本原因。让我知道我应该上传哪些日志,或者我应该查看哪些日志。仅在今天,我们不得不重新启动服务器4次,并将其修复了一段时间,但它无法解决问题。
所有数据库都是16GB内存和8个cpu和SSD。我在neo4j.properties
中使用以下设置进行设置neostore.nodestore.db.mapped_memory=1024M
neostore.relationshipstore.db.mapped_memory=2048M
neostore.propertystore.db.mapped_memory=6144M
neostore.propertystore.db.strings.mapped_memory=512M
neostore.propertystore.db.arrays.mapped_memory=512M
我们使用newrelic来监控服务器,我们没有看到硬件超过50%的CPU和40%的内存,所以我们很确定不是这样。
感谢任何帮助:)