Erlang套接字直到第二个setopts {active,once}才收到

时间:2011-10-19 21:11:03

标签: tcp erlang

首先,我想道歉,我提供了大量信息,以尽可能清楚地说明问题所在。如果还有什么需要澄清的话,请告诉我。

(运行erlang R13B04,内核2.6.18-194,centos 5.5)

我有一个非常奇怪的问题。我有以下代码来监听和处理套接字:

%Opts used to make listen socket
-define(TCP_OPTS, [binary, {packet, raw}, {nodelay, true}, {reuseaddr, true}, {active, false},{keepalive,true}]).

%Acceptor loop which spawns off sock processors when connections
%come in
accept_loop(Listen) ->
    case gen_tcp:accept(Listen) of
    {ok, Socket} ->
        Pid = spawn(fun()->?MODULE:process_sock(Socket) end),
        gen_tcp:controlling_process(Socket,Pid);
    {error,_} -> do_nothing
    end,
    ?MODULE:accept_loop(Listen).

%Probably not relevant
process_sock(Sock) ->
    case inet:peername(Sock) of
    {ok,{Ip,_Port}} -> 
        case Ip of
        {172,16,_,_} -> Auth = true;
        _ -> Auth = lists:member(Ip,?PUB_IPS)
        end,
        ?MODULE:process_sock_loop(Sock,Auth);
    _ -> gen_tcp:close(Sock)
    end.

process_sock_loop(Sock,Auth) ->
    try inet:setopts(Sock,[{active,once}]) of
    ok ->
        receive
        {tcp_closed,_} -> 
            ?MODULE:prepare_for_death(Sock,[]);
        {tcp_error,_,etimedout} -> 
            ?MODULE:prepare_for_death(Sock,[]);

        %Not getting here
        {tcp,Sock,Data} ->
            ?MODULE:do_stuff(Sock,Data);

        _ ->
            ?MODULE:process_sock_loop(Sock,Auth)
        after 60000 ->
            ?MODULE:process_sock_loop(Sock,Auth)
        end;
    {error,_} ->
        ?MODULE:prepare_for_death(Sock,[]) 
    catch _:_ -> 
        ?MODULE:prepare_for_death(Sock,[])
    end.

整个设置工作正常,过去几个月一直在工作。服务器作为具有长期tcp连接的消息传递服务器运行,并且平均保持大约100k连接。但是现在我们正在尝试更频繁地使用服务器。我们正在为erlang服务器建立两个长期连接(未来可能更多),并且每个连接每秒产生几百个命令。在通常情况下,这些命令中的每一个都会产生一个新线程,这个线程可能会从mnesia中进行某种读取,并根据它发送一些消息。

当我们尝试测试这两个命令连接时,会出现异常。当我们打开命令流时,任何新连接都有大约50%的挂起机会。例如,使用netcat如果我要连接并发送字符串“blahblahblah”,服务器应立即返回错误。在执行此操作时,它不会在线程外进行任何调用(因为它所做的只是尝试解析命令,因为blahblahblah不是命令会失败)。但是大约50%的时间(当两个命令连接正在运行时)输入blahblahblah导致服务器只是在那里坐了60秒然后才返回错误。

在尝试调试时,我拉起了wireshark。 tcp握手总是立即发生,当发送来自客户端(netcat)的第一个数据包时,它会立即响应,告诉我内核的tcp堆栈不是瓶颈。我唯一的猜测是问题出在process_sock_loop函数中。它有一个接收,它将在60秒后返回到函数的顶部,并再次尝试从套接字获得更多。我最好的猜测是发生了以下情况:

  • 建立连接,线程移至process_sock_loop
  • {active,once}已设置
  • 线程接收,但即使它存在
  • 也无法获取数据
  • 60秒后,线程返回到process_sock_loop
  • 的顶部
  • {active,once}再次设置
  • 这次数据通过,事情正常进行

为什么会这样我不知道,当我们关闭这两个命令连接时,一切都恢复正常,问题就消失了。

有什么想法吗?

1 个答案:

答案 0 :(得分:2)

由于您对spawn的调用和对CONTROL_process的调用之间的竞争条件,您第一次设置{active,once}的调用可能会失败

它可能是间歇性的,可能是基于主机负载。

执行此操作时,我通常会生成一个阻止以下内容的函数: {取,袜子}

然后在袜子上调用你的循环,设置{active,once}。

所以你将接受器更改为spawn,设置controls_process然后Pid! {取,袜子}

这样的事情。 注意:我不知道当你不是控制进程时,{active,once}调用是否实际抛出,如果不是,那么我刚刚说的是有意义的。