Lwt泄漏文件描述符,不确定bug或我的代码

时间:2016-01-12 00:03:19

标签: ocaml resource-leak ocaml-lwt

(Cross发布到lwt github问题)

我已经将我的用法归结为此代码示例,这将泄漏文件描述符。

说你有:

#require "lwt.unix"

open Lwt.Infix

let echo ic oc = Lwt_io.(write_chars oc (read_chars ic))

let program =
  let server_address = Unix.(ADDR_INET (inet_addr_loopback, 2000)) in

  let other_addr = Unix.(ADDR_INET (inet_addr_loopback, 2001)) in

  let server = Lwt_io.establish_server server_address begin fun (tcp_ic, tcp_oc) ->
      Lwt_io.with_connection other_addr begin fun (nc_ic, nc_oc) ->

        Lwt_io.printl "Created connection" >>= fun () ->
        echo tcp_ic nc_oc <&> echo nc_ic tcp_oc >>= fun () ->
        Lwt_io.printl "finished"

      end
      |> Lwt.ignore_result

    end
  in
  fst (Lwt.wait ())

let () =
  Lwt_main.run program

然后使用以下命令创建一个简单的服务器:

nc -l 2001

然后让我们启动OCaml代码 utop example.ml

然后打开一个客户端

nc localhost 2000
blah blah
^c

然后使用lsof查看端口2000的连接,我们看到

ocamlrun 71109 Edgar    6u  IPv4 0x7ff3e309cb80aead      0t0  TCP 127.0.0.1:callbook (LISTEN)
ocamlrun 71109 Edgar    7u  IPv4 0x7ff3e309c9dc8ead      0t0  TCP 127.0.0.1:callbook->127.0.0.1:54872 (CLOSE_WAIT)

事实上,对于nc localhost 2000的每次使用,我们都会从lsof使用中获得剩余的CLOSE_WAIT记录。

最终这将导致系统耗尽文件描述符,这将令人烦恼地不会使程序崩溃,但会导致Lwt挂起。

我无法判断我是否做错了或者这是一个真正的错误,无论如何这对我来说是一个严重的错误,我在10小时内用完了文件描述符......

编辑:在我看来问题是连接的一侧是关闭但另一侧不是,我会认为只要任何一方关闭,with_connection应该清理/关闭nc_icnc_oc关闭。

编辑II:我已尝试用Lwt_io.close手动关闭描述符的每种方式,但我仍然有CLOSE_WAIT消息。

编辑III:甚至在给予with_connection的可选Lwt_unix.close参数的原始fd上使用了fd,但结果类似。

编辑IV:最阴险的是如果我使用Lwt_daemon.daemonize,那么这个问题似乎就消失了

2 个答案:

答案 0 :(得分:5)

首先,不清楚为什么使用加入:before而不是选择<&>。如果双方中的一方想要关闭它,我想连接应该关闭。

关于<?>:它是从CLOSE_WAIT服务器到utop客户端的半封闭连接。

TCP连接由两个半连接组成,它们是独立关闭的。由于ncnc客户端与utop服务器之间的连接已由nc关闭。但是您必须通过关闭输出流来显式关闭服务器端的相反连接。我不确定为什么Ctrl-C不会自动关闭它。可能,这是一个设计问题。

这对我在CentOS 7上有用:

Lwt.establish_server

此外,还有一个简化的代码段来重现此问题:

Lwt_io.printl "Created connection" >>= fun () ->
echo tcp_ic nc_oc <?> echo nc_ic tcp_oc >>= fun () ->
Lwt_io.close tcp_oc >>= fun () ->
Lwt_io.printl "finished"

多次运行#require "lwt.unix" let program = let server_address = Unix.(ADDR_INET (inet_addr_loopback, 2000)) in let _server = Lwt_io.establish_server server_address begin fun (ic, oc) -> (* Lwt_io.close oc |> Lwt.ignore_result; *) () end in fst (Lwt.wait ()) let () = Lwt_main.run program 以获得nc localhost 2000状态的连接。取消注释代码以解决问题。

答案 1 :(得分:2)

在提出此问题时,潜在问题是Lwt_io.establish_server根本没有做任何努力来关闭与tcp_ictcp_oc相关联的文件描述符。虽然这可以(并且应该)由用户手动关闭它们来解决,但这是一种奇怪且意外的行为。

自Lwt 3.0.0起可用的new Lwt_io.establish_server会尝试自动关闭tcp_ictcp_oc。为了允许这种情况,回调的类型签名略有不同:回调必须返回一个承诺,您应该在不再需要tcp_ic / tcp_oc时解决该承诺。 (编辑)在实践中,这意味着你只需用自然Lwt风格编写回调函数,完成最后一个Lwt操作将关闭通道。

新API还在内部调用Lwt.async来运行您的回调,因此您无需拨打该号码或Lwt.ignore_result

您仍然可以在回调中手动关闭tcp_ictcp_oc,编写自己的错误处理程序,这可以随心所欲。新Lwt_io.establish_server内的第二个自动内部关闭不会产生任何有害影响。

新的API是Lwt issue #208中对此问题进行并行讨论的最终结果。

如果有人想要旧的,痛苦的行为,也许是为了在问题中重现问题,旧的API可以在名称Lwt_io.Versioned.establish_server_1下使用一段时间。