Question

#!/usr/bin/env perl
use warnings;
use 5.012;
use Encode qw(encode);

no warnings qw(utf8);

my $c = "\x{ffff}";

my $utf_8 = encode( 'utf-8', $c );
my $utf8 = encode( 'utf8', $c );

say "utf-8 :  @{[ unpack '(B8)*', $utf_8 ]}";
say "utf8  :  @{[ unpack '(B8)*', $utf8 ]}";

# utf-8 :  11101111 10111111 10111101
# utf8  :  11101111 10111111 10111111

“utf-8”是否以这种方式编码，将我的代码点自动修复到最后一个可互换的代码点（第一个平面）？

Answer 1

请参阅UTF-8 vs. utf8 vs. UTF8 section文档的Encode。

总而言之，Perl有两种不同的UTF-8编码。它的本机编码称为utf8，并且基本上允许任何代码点，无论Unicode标准对该代码点的描述如何。

其他编码称为utf-8（a.k.a。utf-8-strict）。这仅允许由Unicode标准分配的代码点。

根据Unicode，

\x{FFFF}不是有效的代码点。但Perl的utf8编码并不关心这一点。

默认情况下，encode函数用替换字符替换目标字符集中不存在的任何字符（请参阅Handling Malformed Data section）。对于utf-8，该替换字符为U+FFFD (REPLACEMENT CHARACTER)，其以UTF-8编码为11101111 10111111 10111101（二进制）。

关于“utf-8”行为的问题

1 个答案: