Question

我一直试图找出这个问题一个多月了。我无处可去。我有一个服务器，可以监听许多多播通道（100ish）。每个套接字都是自己的线程。然后我有一个客户端监听器（单线程），它处理同一服务器中的所有传入连接，断开连接和客户端消息传递。我们的想法是客户端进入，连接，从多播通道请求数据，然后将数据发送回客户端。客户端保持连接，我将UDP数据中继回客户端。客户端可以请求UDP或TCP具有数据中继的协议。有一次，这种情况很好地工作了几个星期。我们做了一些代码和内核更改，现在我们无法弄清楚出了什么问题。

服务器将运行数小时，并且全天有数百个客户端连接。但在某些时候，随机，服务器将停止。通过停止，我的意思是：所有UDP套接字都停止接收/处理数据（tcpdump显示数据仍然出现在框中），client_listener线程停止接收客户端数据包。但！！！主client_listener套接字仍然可以在主套接字上接收新连接和新断开连接。在新连接上，主套接字能够发送＆＃34;连接建立＆＃34;数据包返回客户端，但是当客户端响应时，select永远不会返回。

如果有人愿意，我可以发布代码。如果有人有任何建议，或者这听起来像什么。请告诉我。

如果您有任何疑问，请询问。

谢谢。

我想分享我的TCP服务器代码：这是一个单线程。工作好几个小时然后我只会收到＆＃34; New Connections＆＃34;和＆＃34;断开＆＃34;。没有客户端包进来。

int opt = 1;
  int addrlen;
  int sd;
  int max_sd;
  int valread;
  int activity;
  int new_socket;
  char buffer[MAX_BUFFER_SIZE];
  int client_socket[m_max_clients];
  struct sockaddr_in address;

  fd_set readfds;
  for(int i = 0; i<m_max_clients; i++)
  {
    client_socket[i]=0;
  }

  if((m_master_socket = socket(AF_INET,SOCK_STREAM,0))==0)
    LOG(FATAL)<<"Unable to create master socket";

  if(setsockopt(m_master_socket,SOL_SOCKET,SO_REUSEADDR,(char*)&opt,sizeof(opt))<0)
    LOG(FATAL)<<"Unable to set master socket";

  address.sin_family = AF_INET;
  address.sin_addr.s_addr = INADDR_ANY;
  address.sin_port = htons(m_listenPort);

  if(bind(m_master_socket,(struct sockaddr*)& address, sizeof(address))!=0)
    LOG(FATAL)<<"Unable to bind master socket";

  if(listen(m_master_socket,SOMAXCONN)!=0)
    LOG(FATAL)<<"listen() failed with err";

  addrlen = sizeof(address);
  LOG(INFO)<<"Waiting for connections......";

while(true)
  {
    FD_ZERO(&readfds);

    FD_SET(m_master_socket, &readfds);
    max_sd = m_master_socket;

    for(int i = 0; i<m_max_clients; i++)
    {
      sd = client_socket[i];

      if(sd > 0)
        FD_SET(sd, &readfds);

      if(sd>max_sd)
        max_sd = sd;
    }

    activity = select(max_sd+1,&readfds,NULL,NULL,NULL);

    if((activity<0)&&(errno!=EINTR))
    {
    //  int err = errno;
  //    LOG(ERROR)<<"SELECT ERROR:"<<activity<<" "<<err;
      continue;
    }

    if(FD_ISSET(m_master_socket, &readfds))
    {
      if((new_socket = accept(m_master_socket,(struct sockaddr*)&address, (socklen_t*)&addrlen))<0)
        LOG(FATAL)<<"ERROR:ACCEPT FAILED!";

      LOG(INFO)<<"New Connection, socket fd is (" << new_socket << ") client_addr:" << inet_ntoa(address.sin_addr) << " Port:" << ntohs(address.sin_port);
      for(int i =0;i<m_max_clients;i++)
      {
        if(client_socket[i]==0)
        {
          //try to set the socket to non blocking, tcp nagle and keep alive
          if ( !SetSocketBlockingEnabled(new_socket, false) )
            LOG(INFO)<<"UNABLE TO SET NON-BLOCK: ("<<new_socket<<")" ;
          if ( !SetSocketNoDelay(new_socket,false) )
            LOG(INFO)<<"UNABLE TO SET DELAY: ("<<new_socket<<")" ;
//           if ( !SetSocketKeepAlive(new_socket,true) )
//            LOG(INFO)<<"UNABLE TO SET KeepAlive: ("<<new_socket<<")" ;

          ClientConnection* con = new ClientConnection(m_mocSrv, m_udpPortGenerator, inet_ntoa(address.sin_addr), ntohs(address.sin_port), new_socket);
          if(con->login())
          {
            client_socket[i] = new_socket;
            m_clientConnectionSocketMap[new_socket] = con;
            LOG(INFO)<<"Client Connection Logon Complete";
          }
          else
            delete con;
          break;
        }
      }//for
    }
    else
    {
      try{
        for(int i = 0; i<m_max_clients; i++)
        {
          sd = client_socket[i];
          if(FD_ISSET(sd,&readfds))
          {
            if ( (valread = recv(sd, buffer, sizeof(buffer),MSG_DONTWAIT|MSG_NOSIGNAL)) <= 0 )
            {
             //remove from the fd listening set
              LOG(INFO)<<"RESET CLIENT_SOCKET:("<<sd<<")";
              client_socket[i]=0;
              handleDisconnect(sd,true);
           }
           else
           {
             std::map<int, ClientConnection*>::iterator client_connection_socket_iter = m_clientConnectionSocketMap.find(sd);
             if(client_connection_socket_iter != m_clientConnectionSocketMap.end())
             {
               client_connection_socket_iter->second->handle_message(buffer, valread);
               if(client_connection_socket_iter->second->m_logoff)
               {
                  LOG(INFO)<<"SOCKET LOGGED OFF:"<<sd;
                  client_socket[i]=0;
                  handleDisconnect(sd,true);
               }
             }
             else
             {
                LOG(ERROR)<<"UNABLE TO FIND SOCKET DESCRIPTOR:"<<sd;
             }
           }
          }
        }
      }catch(...)
      {
        LOG(ERROR)<<"EXCEPTION CATCH!!!";
      }
    }
  }

Answer 1

根据给出的信息，我将陈述以下内容：

不要为每个连接使用线程。因为你在Linux上使用EPOLL Edge Triggered Multiplexing。大多数较新的Web框架都使用此技术。有关详情，请查看10K Problem。通过从等式中消除线程，您可以消除死锁的可能性并降低调试/担心线程安全变量的复杂性。
完成后确保每个连接完全关闭。
确保自升级以来没有在iptables中弹出一些新的防火墙规则。
检查网络上的所有防火墙，看看它们是否限制某些类型的活动（自升级以来，您的服务器是否在新IP上？）

简而言之，我会把钱花在线程僵局和/或饥饿上。我亲自进行过实验，我使用Epoll创建了一个多线程服务器和一个单线程服务器。结果在日夜不同，Epoll吹走了多线程实现（用于I / O）并使代码编写，调试和维护更简单。

Linux TCP服务器问题C ++

1 个答案: