我遇到了一个TCP套接字的奇怪错误。似乎默认情况下在所有套接字上都启用了SO_KEEPALIVE
。
我写了一个简短的测试用例来创建套接字并连接到服务器。在连接后,我立即与SO_KEEPALIVE
核对getsockopt
。该值为非零,根据MSDN,表示保持活动状态。也许我误解了这个。
我最近遇到了一个奇怪的错误,即服务器连续两次断开连接。一些客户处于他们发送登录信息并等待响应的状态。即使在连接到服务器的套接字上发布了重叠WSARecv
,也没有发布完成通知客户端服务器崩溃,所以我假设套接字没有完全关闭。
大约2小时后(实际上大约1小时59分19秒),发布了一个完成数据包,通知客户端连接不再打开。这是我开始怀疑SO_KEEPALIVE
的地方。
我试图理解为什么会这样。它引起了一些问题,因为因任何原因失去连接的客户端应该自动重新连接到服务器;在这种情况下,由于未通知断开连接,因此客户端在2小时后才重新连接。
一个明显的解决方法是暂停,但我想知道这种情况会如何发生。
我的应用程序服务器或客户端未在套接字上设置 SO_KEEPALIVE
。
// Error checking is removed for this snippet, but all winsock calls succeed.
int main() {
WORD wVersionRequested;
WSADATA wsaData;
int err;
wVersionRequested = MAKEWORD(2, 2);
err = WSAStartup(wVersionRequested, &wsaData);
SOCKET foo = WSASocket(AF_INET, SOCK_STREAM, IPPROTO_TCP, 0, 0, 0);
DWORD optval;
int optlen = sizeof(optval);
int test = 0;
test = getsockopt(foo, SOL_SOCKET, SO_KEEPALIVE, (char*)&optval, &optlen);
std::cout << "Returned " << optval << std::endl;
sockaddr_in clientService;
clientService.sin_family = AF_INET;
clientService.sin_addr.s_addr = inet_addr("127.0.0.1");
clientService.sin_port = htons(446);
connect(foo, (SOCKADDR*) &clientService, sizeof(clientService));
test = getsockopt(foo, SOL_SOCKET, SO_KEEPALIVE, (char*)&optval, &optlen);
std::cout << "Returned " << optval << std::endl;
std::cin.get();
return 0;
}
// Example output:
// Returned 2883584
// Returned 2883584
答案 0 :(得分:4)
首先在VM上干净安装操作系统上运行测试。我怀疑你安装的其他东西可能已经摆弄了keep alive设置。
其次,我怀疑启用保持活动是导致问题的原因。如果未启用keep alive,那么您将永远不会从该挂起读取中获得连接关闭通知。 TCP应该像这样工作,它允许中间路由器离开并返回,你既不知道也不关心。只有当您尝试发送并且连接断开时(或者,在这种情况下,如果您尝试发送并且服务器已经退回),您将被告知失败的唯一时间。保持活动已启用的事实意味着在1小时59分钟标记TCP堆栈传输保持活动并注意到连接已关闭。如果没有启用保持活动,那么你将不得不等到你发送了一些东西。
如果您的客户需要知道连接是否断开,那么最好完全忽略保持活动状态(正如您所看到的,它会影响整个机器,即使您不是启用它的人,也会影响到我糟糕的解决方案)。如果可以,请为协议添加应用程序级ping和/或超时。因此,也许每个命令都需要30秒内的响应,并且每分钟都会从服务器发送一个...然后,您可以根据需要快速找到死连接,并且可以在此时断开连接并重新连接。
我和my server framework使用得很好;事实上,我有一个标准'async read timeout' connection filter和一个'connection re-establishment' filter,这使得确保连接始终处于活动状态变得微不足道。所有读取超时都会中止现有连接,并且连接重建代码会重新创建连接,就像连接因任何其他原因而关闭一样。