Question

首先，我想道歉，我提供了大量信息，以尽可能清楚地说明问题所在。如果还有什么需要澄清的话，请告诉我。

（运行erlang R13B04，内核2.6.18-194，centos 5.5）

我有一个非常奇怪的问题。我有以下代码来监听和处理套接字：

%Opts used to make listen socket
-define(TCP_OPTS, [binary, {packet, raw}, {nodelay, true}, {reuseaddr, true}, {active, false},{keepalive,true}]).

%Acceptor loop which spawns off sock processors when connections
%come in
accept_loop(Listen) ->
    case gen_tcp:accept(Listen) of
    {ok, Socket} ->
        Pid = spawn(fun()->?MODULE:process_sock(Socket) end),
        gen_tcp:controlling_process(Socket,Pid);
    {error,_} -> do_nothing
    end,
    ?MODULE:accept_loop(Listen).

%Probably not relevant
process_sock(Sock) ->
    case inet:peername(Sock) of
    {ok,{Ip,_Port}} -> 
        case Ip of
        {172,16,_,_} -> Auth = true;
        _ -> Auth = lists:member(Ip,?PUB_IPS)
        end,
        ?MODULE:process_sock_loop(Sock,Auth);
    _ -> gen_tcp:close(Sock)
    end.

process_sock_loop(Sock,Auth) ->
    try inet:setopts(Sock,[{active,once}]) of
    ok ->
        receive
        {tcp_closed,_} -> 
            ?MODULE:prepare_for_death(Sock,[]);
        {tcp_error,_,etimedout} -> 
            ?MODULE:prepare_for_death(Sock,[]);

        %Not getting here
        {tcp,Sock,Data} ->
            ?MODULE:do_stuff(Sock,Data);

        _ ->
            ?MODULE:process_sock_loop(Sock,Auth)
        after 60000 ->
            ?MODULE:process_sock_loop(Sock,Auth)
        end;
    {error,_} ->
        ?MODULE:prepare_for_death(Sock,[]) 
    catch _:_ -> 
        ?MODULE:prepare_for_death(Sock,[])
    end.

整个设置工作正常，过去几个月一直在工作。服务器作为具有长期tcp连接的消息传递服务器运行，并且平均保持大约100k连接。但是现在我们正在尝试更频繁地使用服务器。我们正在为erlang服务器建立两个长期连接（未来可能更多），并且每个连接每秒产生几百个命令。在通常情况下，这些命令中的每一个都会产生一个新线程，这个线程可能会从mnesia中进行某种读取，并根据它发送一些消息。

当我们尝试测试这两个命令连接时，会出现异常。当我们打开命令流时，任何新连接都有大约50％的挂起机会。例如，使用netcat如果我要连接并发送字符串“blahblahblah”，服务器应立即返回错误。在执行此操作时，它不会在线程外进行任何调用（因为它所做的只是尝试解析命令，因为blahblahblah不是命令会失败）。但是大约50％的时间（当两个命令连接正在运行时）输入blahblahblah导致服务器只是在那里坐了60秒然后才返回错误。

在尝试调试时，我拉起了wireshark。 tcp握手总是立即发生，当发送来自客户端（netcat）的第一个数据包时，它会立即响应，告诉我内核的tcp堆栈不是瓶颈。我唯一的猜测是问题出在process_sock_loop函数中。它有一个接收，它将在60秒后返回到函数的顶部，并再次尝试从套接字获得更多。我最好的猜测是发生了以下情况：

建立连接，线程移至process_sock_loop
{active，once}已设置
线程接收，但即使它存在
60秒后，线程返回到process_sock_loop
{active，once}再次设置
这次数据通过，事情正常进行

为什么会这样我不知道，当我们关闭这两个命令连接时，一切都恢复正常，问题就消失了。

有什么想法吗？

Answer 1

由于您对spawn的调用和对CONTROL_process的调用之间的竞争条件，您第一次设置{active，once}的调用可能会失败

它可能是间歇性的，可能是基于主机负载。

执行此操作时，我通常会生成一个阻止以下内容的函数： {取，袜子}

然后在袜子上调用你的循环，设置{active，once}。

所以你将接受器更改为spawn，设置controls_process然后Pid！ {取，袜子}

这样的事情。注意：我不知道当你不是控制进程时，{active，once}调用是否实际抛出，如果不是，那么我刚刚说的是有意义的。

Erlang套接字直到第二个setopts {active，once}才收到

1 个答案: