为什么Perl的编码层没有任何影响?

时间:2018-03-04 10:26:03

标签: perl character-encoding

我需要读取以iso-8859-1编码的文件。

出于某种原因,我无法使用编码层(如PerlIO::encoding中所述)。这是我正在做的最小例子。

test.txt包含以iso-8859-1编码的单磅符号。

% iconv -f iso-8859-1 test.txt
£

% hexdump -C test.txt
00000000  a3 0a                                             |..|
00000002

我的Perl脚本:

#!/bin/perl

use warnings;
use strict;

open my $f, "<:encoding(iso-8859-1)", $ARGV[0] or die qq{Could not open $ARGV[0]: $!};

while (<$f>) {
  print;
}

结果:

% ./script.pl test.txt | hexdump -C
00000000  a3 0a                                             |..|
00000002

因此脚本打印出它读取的确切字节序列,没有 进行转换。

2 个答案:

答案 0 :(得分:4)

我假设没有使用特定编码声明的文件句柄默认使用utf-8编码,但显然不是真的。

添加明确的

binmode(STDOUT, ":utf8");

解决了这个问题。

答案 1 :(得分:4)

字符串是(32位或64位)数字的序列。

在包含已解码文本的字符串中,这些数字是Unicode代码点。由于字节A3代表iso-8859-1下的Unicode代码点U+00A3,因此decode("iso-8859-1", "\xA3")会返回"\xA3"

您继续打印该字符串,print("\xA3")在没有编码层的文件句柄上生成字节A3(因为它需要一个字节字符串)。

您没有指定您想要做的事情,但我猜您希望程序将输入从iso-8859-1转换为UTF-8。为此,

添加

use open ':std', ':encoding(locale)';

use open ':std', ':encoding(UTF-8)';

这些将编码层添加到STDIN,STDOUT和STDERR(使用binmode),并在范围内为open设置默认编码层。