首先,我想道歉,我提供了大量信息,以尽可能清楚地说明问题所在。如果还有什么需要澄清的话,请告诉我。
(运行erlang R13B04,内核2.6.18-194,centos 5.5)
我有一个非常奇怪的问题。我有以下代码来监听和处理套接字:
%Opts used to make listen socket
-define(TCP_OPTS, [binary, {packet, raw}, {nodelay, true}, {reuseaddr, true}, {active, false},{keepalive,true}]).
%Acceptor loop which spawns off sock processors when connections
%come in
accept_loop(Listen) ->
case gen_tcp:accept(Listen) of
{ok, Socket} ->
Pid = spawn(fun()->?MODULE:process_sock(Socket) end),
gen_tcp:controlling_process(Socket,Pid);
{error,_} -> do_nothing
end,
?MODULE:accept_loop(Listen).
%Probably not relevant
process_sock(Sock) ->
case inet:peername(Sock) of
{ok,{Ip,_Port}} ->
case Ip of
{172,16,_,_} -> Auth = true;
_ -> Auth = lists:member(Ip,?PUB_IPS)
end,
?MODULE:process_sock_loop(Sock,Auth);
_ -> gen_tcp:close(Sock)
end.
process_sock_loop(Sock,Auth) ->
try inet:setopts(Sock,[{active,once}]) of
ok ->
receive
{tcp_closed,_} ->
?MODULE:prepare_for_death(Sock,[]);
{tcp_error,_,etimedout} ->
?MODULE:prepare_for_death(Sock,[]);
%Not getting here
{tcp,Sock,Data} ->
?MODULE:do_stuff(Sock,Data);
_ ->
?MODULE:process_sock_loop(Sock,Auth)
after 60000 ->
?MODULE:process_sock_loop(Sock,Auth)
end;
{error,_} ->
?MODULE:prepare_for_death(Sock,[])
catch _:_ ->
?MODULE:prepare_for_death(Sock,[])
end.
整个设置工作正常,过去几个月一直在工作。服务器作为具有长期tcp连接的消息传递服务器运行,并且平均保持大约100k连接。但是现在我们正在尝试更频繁地使用服务器。我们正在为erlang服务器建立两个长期连接(未来可能更多),并且每个连接每秒产生几百个命令。在通常情况下,这些命令中的每一个都会产生一个新线程,这个线程可能会从mnesia中进行某种读取,并根据它发送一些消息。
当我们尝试测试这两个命令连接时,会出现异常。当我们打开命令流时,任何新连接都有大约50%的挂起机会。例如,使用netcat如果我要连接并发送字符串“blahblahblah”,服务器应立即返回错误。在执行此操作时,它不会在线程外进行任何调用(因为它所做的只是尝试解析命令,因为blahblahblah不是命令会失败)。但是大约50%的时间(当两个命令连接正在运行时)输入blahblahblah导致服务器只是在那里坐了60秒然后才返回错误。
在尝试调试时,我拉起了wireshark。 tcp握手总是立即发生,当发送来自客户端(netcat)的第一个数据包时,它会立即响应,告诉我内核的tcp堆栈不是瓶颈。我唯一的猜测是问题出在process_sock_loop函数中。它有一个接收,它将在60秒后返回到函数的顶部,并再次尝试从套接字获得更多。我最好的猜测是发生了以下情况:
为什么会这样我不知道,当我们关闭这两个命令连接时,一切都恢复正常,问题就消失了。
有什么想法吗?
答案 0 :(得分:2)
由于您对spawn的调用和对CONTROL_process的调用之间的竞争条件,您第一次设置{active,once}的调用可能会失败
它可能是间歇性的,可能是基于主机负载。
执行此操作时,我通常会生成一个阻止以下内容的函数: {取,袜子}
然后在袜子上调用你的循环,设置{active,once}。
所以你将接受器更改为spawn,设置controls_process然后Pid! {取,袜子}
这样的事情。 注意:我不知道当你不是控制进程时,{active,once}调用是否实际抛出,如果不是,那么我刚刚说的是有意义的。