我正在尝试设置MongoDB测试副本集。问题是我找不到任何方法来获取错误消息,其中一个节点永久保持DOWN
或UNKNOWN
状态。
这是我来自主要
的rs.status {
"set" : "rs0",
"date" : ISODate("2014-05-08T00:41:11Z"),
"myState" : 1,
"members" : [
{
"_id" : 0,
"name" : "mongo1:27017",
"health" : 1,
"state" : 1,
"stateStr" : "PRIMARY",
"uptime" : 3319,
"optime" : Timestamp(1399509356, 1),
"optimeDate" : ISODate("2014-05-08T00:35:56Z"),
"electionTime" : Timestamp(1399506359, 1),
"electionDate" : ISODate("2014-05-07T23:45:59Z"),
"self" : true
},
{
"_id" : 2,
"name" : "mongo3:30000",
"health" : 1,
"state" : 2,
"stateStr" : "SECONDARY",
"uptime" : 319,
"lastHeartbeat" : ISODate("2014-05-08T00:41:11Z"),
"lastHeartbeatRecv" : ISODate("2014-05-08T00:41:11Z"),
"pingMs" : 2,
"syncingTo" : "mongo1:27017"
},
{
"_id" : 3,
"name" : "mongo2:27018",
"health" : 1,
"state" : 6,
"stateStr" : "UNKNOWN",
"uptime" : 315,
"optime" : Timestamp(0, 0),
"optimeDate" : ISODate("1970-01-01T00:00:00Z"),
"lastHeartbeat" : ISODate("2014-05-08T00:41:11Z"),
"lastHeartbeatRecv" : ISODate("1970-01-01T00:00:00Z"),
"pingMs" : 2,
"lastHeartbeatMessage" : "still initializing"
}
],
"ok" : 1
}
这是来自主要
的rs.conf {
"_id" : "rs0",
"version" : 12,
"members" : [
{
"_id" : 0,
"host" : "mongo1:27017"
},
{
"_id" : 2,
"host" : "mongo3:30000",
"arbiterOnly" : true
},
{
"_id" : 3,
"host" : "mongo2:27018"
}
]
}
问题是mongo2:27018。我尝试过添加和删除它。我试过擦拭整个盒子并重新安装Cent + Mongo。从3个框中的任何一个,我可以mongo
到其他2.所以从mongo1:27017我可以输入mongo mongo2:27018
并且它没有问题。所有3个盒子都具有相同的配置,我在其/etc/hosts
中检查了双倍,三倍和四倍。
我可以在任何地方找到的唯一调试信息是有问题的节点上的以下块:
2014-05-08T02:45:51.763+0200 [initandlisten] connection accepted from 10.0.2.2:48720 #50 (2 connections now open)
2014-05-08T02:46:00.593+0200 [rsStart] trying to contact mongo1:27017
2014-05-08T02:46:00.602+0200 [rsStart] trying to contact mongo3:30000
2014-05-08T02:46:00.605+0200 [rsStart] replSet info Couldn't load config yet. Sleeping 20sec and will try again.
任何指导都表示赞赏,现在已经在这5个小时内挣扎。
答案 0 :(得分:6)
我们发现的最终问题是,每个副本节点的主机名不仅需要在节点之间,而且还要从节点到自身有效!
例如,由于某些端口转发正在进行,mongo1可以通过mongo2:27018与mongo2成功通信,mongo3可以通过mongo2:27018与mongo2成功通信,但mongo2无法通过mongo2:27018与自身通信(因为它实际上是在听27017)。它对其他盒子起作用的原因是它们是mongo1而mongo3有mongo2的别名,它的端口转发27018到27017.
所以基本上除非每个节点都可以ping通自己和配置中主机名的其他节点,否则它将无效!