Question

问题

根据我是从:stdio拉出还是打开文件，读取文件的行为似乎有所不同。为什么？我希望能够从STDIN读取二进制文件或打开文件（File.open）并使用相同的代码来提取字节。

简而言之：

为什么我在下面列出的行为在stdio和。之间有所不同文件？
我如何实现目标？

测试用例

作为一个简单的测试用例，我有一个包含三个字节的二进制文件：

06 8C 7D

我想要的结果是从任一来源读取这个文件应该产生一个形式的二进制文件：

<<6, 140, 125>>

然而，根据我是从STDIO读取还是打开文件，情况似乎有所不同。

以下是一系列展示行为的测试用例。

示例1

stdio的IO.binread产生此错误

IO.inspect IO.binread(:stdio, 3)
$ elixir repro.exs < repro.bin
{:error, :collect_chars}

示例2

stdio的IO.read产生了期望的结果

IO.inspect IO.read(:stdio, 3)
$ elixir repro.exs < repro.bin
<<6, 140, 125>>

示例3

文件的IO.binread产生所需的结果

{:ok, file} = File.open("repro.bin")
IO.inspect IO.binread(file, 3)
$ elixir repro.exs
<<6, 140, 125>>

示例4

文件的IO.read增加了一个额外的字节（194），我不明白 - 我最好的猜测是这与utf8有关吗？

{:ok, file} = File.open("repro.bin")
IO.inspect IO.read(file, 3)
$ elixir repro.exs
<<6, 194, 140, 125>>

我想要的是什么：

接受文件或 stdio并进行处理的方法两种设备都一样。现在，似乎我做不到。尽管我用谷歌搜索最好，但我发现自己陷入困境。

任何见解？

Answer 1

JoséValim对elixir google小组的回答：

您的问题的答案是源的编码。 STDIO默认为unicode，这意味着它不适合binread。这在binread函数中有记录，目前是Erlang错误/限制。要找出编码，请使用getopts：

iex> :io.getopts :standard_io [expand_fun: &IEx.Autocomplete.expand/1, echo: true, binary: true, encoding: :unicode]

另一方面，File处于latin状态，这意味着read将尝试转换，binread将返回原始字节。您可以尝试使用：io.setopts并查看是否获得了所需的结果：

iex> io.setopts :standard_io, encoding: :latin1

我知道情况并不理想。如果无论文件的编码如何，binread始终可以读取字节，这将是很好的。我在这里写了一份报告：http://erlang.org/pipermail/erlang-bugs/2014-July/004498.html

总结一下：


read将始终尝试转换为设备编码

binread应该始终返回原始二进制文件，但是在unicode（这是IO设备的默认设置）方面存在一个错误。

我看到的额外字节（194）的奇怪“注入”似乎是elixir / erlang试图将bin解释为utf8。

根据他的建议，直接设置stdio的编码似乎可以解决问题：

test_read = fn(device) ->
  IO.binread(device, 3)
end

#set stdio's encoding to latin1
:io.setopts(:standard_io, encoding: :latin1)

# Test the read against stdio
IO.inspect test_read.(:stdio)

#grab a file descriptor
{:ok, fd} = File.open("repro.bin")

# Test the same read against a file
IO.inspect test_read.(fd)

输出：

$ elixir repro.exs < repro.bin
<<6, 140, 125>>
<<6, 140, 125>>

为什么文件读取因STDIO或File.open？

问题

测试用例

示例1

示例2

示例3

示例4

我想要的是什么：

1 个答案: