Question

我有一些有趣的结果，试图辨别使用Encode::decode("utf8", $var)和utf8::decode($var)之间的差异。我已经发现在变量上多次调用前者最终会导致错误“无法解码带有宽字符的字符串...”，而后一种方法将很乐意运行多次，只需返回false。

我无法理解的是length函数如何根据您用于解码的方法返回不同的结果。问题出现是因为我正在处理来自外部文件的“双重编码”utf8文本。为了演示这个问题，我在一行创建了一个文本文件“test.txt”，其中包含以下Unicode字符：U + 00e8，U + 00ab，U + 0086，U + 000a。这些Unicode字符是Unicode字符U + 8acb的双重编码，以及换行符。该文件以UTF8编码为磁盘。然后我运行以下perl脚本：

#!/usr/bin/perl                                                                                                                                          
use strict;
use warnings;
require "Encode.pm";
require "utf8.pm";

open FILE, "test.txt" or die $!;
my @lines = <FILE>;
my $test =  $lines[0];

print "Length: " . (length $test) . "\n";
print "utf8 flag: " . utf8::is_utf8($test) . "\n";
my @unicode = (unpack('U*', $test));
print "Unicode:\n@unicode\n";
my @hex = (unpack('H*', $test));
print "Hex:\n@hex\n";

print "==============\n";

$test = Encode::decode("utf8", $test);
print "Length: " . (length $test) . "\n";
print "utf8 flag: " . utf8::is_utf8($test) . "\n";
@unicode = (unpack('U*', $test));
print "Unicode:\n@unicode\n";
@hex = (unpack('H*', $test));
print "Hex:\n@hex\n";

print "==============\n";

$test = Encode::decode("utf8", $test);
print "Length: " . (length $test) . "\n";
print "utf8 flag: " . utf8::is_utf8($test) . "\n";
@unicode = (unpack('U*', $test));
print "Unicode:\n@unicode\n";
@hex = (unpack('H*', $test));

print "Hex:\n@hex\n";

这给出了以下输出：

Length: 7
utf8 flag: 
Unicode:
195 168 194 171 194 139 10
Hex:
c3a8c2abc28b0a
==============
Length: 4
utf8 flag: 1
Unicode:
232 171 139 10
Hex:
c3a8c2abc28b0a
==============
Length: 2
utf8 flag: 1
Unicode:
35531 10
Hex:
e8ab8b0a

这是我所期待的。长度最初是7因为perl认为$ test只是一系列字节。解码一次之后，perl知道$ test是一系列utf8编码的字符（即，不是返回7个字节的长度，perl返回4个字符的长度，即使$ test仍然是7个字节的内存）。在第二次解码之后，$ test包含4个字节，解释为2个字符，这是我所期望的，因为Encode :: decode占用4个代码点并将它们解释为utf8编码的字节，从而产生2个字符。奇怪的是当我修改代码来调用utf8 :: decode时（替换所有$ test = Encode :: decode（“utf8”，$ test）;使用utf8 :: decode（$ test））

这给出几乎相同的输出，只有长度的结果不同：

Length: 7
utf8 flag: 
Unicode:
195 168 194 171 194 139 10
Hex:
c3a8c2abc28b0a
==============
Length: 4
utf8 flag: 1
Unicode:
232 171 139 10
Hex:
c3a8c2abc28b0a
==============
Length: 4
utf8 flag: 1
Unicode:
35531 10
Hex:
e8ab8b0a

似乎perl首先计算解码前的字节数（如预期的那样），然后在第一次解码后对字符进行计数，然后在第二次解码后再次对字节进行计数（不是预期的）。为什么会发生这种转变？我对这些解码功能如何运作有所了解吗？

谢谢，
马特

Answer 1

您不应该使用utf8 pragma模块中的函数。 Its documentation这样说：

除了告诉Perl您的脚本是用UTF-8编写之外，不要将此pragma用于其他任何事情。

Always use the Encode module，还可以看到问题Checklist for going the Unicode way with Perl。 unpack太低级别，甚至不会给你错误检查。

假设octects E8 AB 86 0A是UTF-8 双重编码字符諆和newline的结果，您错了。这是这些字符的单个UTF-8编码的表示。也许你身边的整个混乱源于这个错误。

length被不适当地重载，在某些时候它确定字符的长度或八位字节的长度。使用更好的工具，例如Devel::Peek。

#!/usr/bin/env perl
use strict;
use warnings FATAL => 'all';
use Devel::Peek qw(Dump);
use Encode qw(decode);

my $test = "\x{00e8}\x{00ab}\x{0086}\x{000a}";
# or read the octets without implicit decoding from a file, does not matter

Dump $test;
#  FLAGS = (PADMY,POK,pPOK)
#  PV = 0x8d8520 "\350\253\206\n"\0

$test = decode('UTF-8', $test, Encode::FB_CROAK);
Dump $test;
#  FLAGS = (PADMY,POK,pPOK,UTF8)
#  PV = 0xc02850 "\350\253\206\n"\0 [UTF8 "\x{8ac6}\n"]

Answer 2

原来这是一个错误：https://rt.perl.org/rt3//Public/Bug/Display.html?id=80190。

Perl：utf8 :: decode与Encode :: decode

2 个答案: