我们有一个mongodb集群,其中包含5个PSA副本集和一个分片集合。大约3,5 TB的数据,20亿份原始文档。平均插入率:300rps。平均选择率:1000rps。 Mongodb版本4.0.6。集合只有一个额外的唯一索引,所有读取的查询都使用其中一个索引(不再运行查询)。
问题。有时(过去2个月中有4次),其中一个节点停止响应具有指定读关注或写关注的查询。不论本地还是通过mongos执行,没有读/写问题的同一查询都会成功执行。这些查询从不执行,没有错误,没有超时(即使在重启mongos时也不会启动查询)。 mongod日志中没有错误,系统日志中没有错误。重新启动此节点可解决此问题。 Mongodb认为此类损坏的节点正常,rs.status()表明一切正常。 不知道如何重现此问题,更严格的负载测试没有结果。
我们将不胜感激。