我需要读取以iso-8859-1编码的文件。
出于某种原因,我无法使用编码层(如PerlIO::encoding
中所述)。这是我正在做的最小例子。
test.txt
包含以iso-8859-1编码的单磅符号。
% iconv -f iso-8859-1 test.txt
£
% hexdump -C test.txt
00000000 a3 0a |..|
00000002
我的Perl脚本:
#!/bin/perl
use warnings;
use strict;
open my $f, "<:encoding(iso-8859-1)", $ARGV[0] or die qq{Could not open $ARGV[0]: $!};
while (<$f>) {
print;
}
结果:
% ./script.pl test.txt | hexdump -C
00000000 a3 0a |..|
00000002
因此脚本打印出它读取的确切字节序列,没有 进行转换。
答案 0 :(得分:4)
我假设没有使用特定编码声明的文件句柄默认使用utf-8编码,但显然不是真的。
添加明确的
binmode(STDOUT, ":utf8");
解决了这个问题。
答案 1 :(得分:4)
字符串是(32位或64位)数字的序列。
在包含已解码文本的字符串中,这些数字是Unicode代码点。由于字节A3
代表iso-8859-1下的Unicode代码点U+00A3
,因此decode("iso-8859-1", "\xA3")
会返回"\xA3"
。
您继续打印该字符串,print("\xA3")
在没有编码层的文件句柄上生成字节A3
(因为它需要一个字节字符串)。
您没有指定您想要做的事情,但我猜您希望程序将输入从iso-8859-1转换为UTF-8。为此,
添加
use open ':std', ':encoding(locale)';
或
use open ':std', ':encoding(UTF-8)';
这些将编码层添加到STDIN,STDOUT和STDERR(使用binmode
),并在范围内为open
设置默认编码层。