Erlang:以有效的方式从输入流中读取

时间:2016-05-07 15:28:59

标签: performance io erlang inputstream processing-efficiency

我正在编写一个从输入流中读取的程序,即

erl -run p main -noshell -s erlang halt < input

问题在于使用此读取功能读取它(输入流很大)需要花费大量时间:

read_input(L) ->
    case io:get_line("") of
        eof ->
            lists:reverse(L);
        E0 ->
            read_input([E0|L])
    end.

我一直在寻找更有效的替代品,但我一无所获。我试图使用

读取文件
{ok, Binary} = file:read_file("input")

这远远高效。问题是我必须在名称未知的平台上运行此程序,所以我需要一些替代方法来执行此操作。另外,我不能选择运行时使用的标志,例如flag -noinput无法添加到命令行。

欢迎您提供任何帮助。

2 个答案:

答案 0 :(得分:7)

您可以使用open_port/2打开标准输入并从中读取二进制文件。例如:

-module(p).
-export([start/0]).

start() ->
    process_flag(trap_exit, true),
    P = open_port({fd,0,1}, [in, binary]),
    Bin = read(P,<<>>),
    io:format("received ~p\n", [Bin]),
    halt(0).

read(P, Bin) ->
    receive
        {P, {data, Data}} ->
            read(P, <<Bin/binary, Data/binary>>);
        {'EXIT',P,_} ->
            Bin
    end.

代码必须捕获出口,因此它知道在端口关闭时退出其读取循环。此示例将所有内容读入从read/2函数返回的单个二进制文件中,然后将其打印出来并退出,但显然您可以在实际应用程序中对二进制文件执行进一步操作。

你可以这样运行:

erl -noinput -s p < input

答案 1 :(得分:2)

尽管Steve's solution对我来说是最快的解决方案,但可以使用file模块解决方案,性能非常好:

-module(p).

-export([start/0]).

-define(BLK_SIZE, 16384).

start() ->
    do(),
    halt().

do() ->
    Bin = read(),
    io:format("~p~n", [byte_size(Bin)]).

read() ->
    ok = io:setopts(standard_io, [binary]),
    read(<<>>).

read(Acc) ->
    case file:read(standard_io, ?BLK_SIZE) of
        {ok, Data} ->
            read(<<Acc/bytes, Data/bytes>>);
        eof ->
            Acc
    end.

它适用于调用,如:

erl -noshell -s p < input

请注意,这两种方法都可以用于面向行的输入,使用端口{line, Max_Line_Size}选项或file:read_line/1模块解决方案使用file。从版本17开始(如果我没记错的话)file:read_line/1中存在固定的性能错误,我发现它现在很好。无论如何,你不应该期待Perl的性能和舒适度。