Question

当我这样做时：

use strict; use warnings;
my $regex = qr/[[:upper:]]/;
my $line = MyModule::get_my_line_from_external_source(); #file, db, etc...
print "upper here\n" if( $line =~ $regex );

perl如何知道它何时必须与ascii uppercase以及何时utf8 uppercase匹配？它是一个预编译的正则表达式 - 所以有些perl必须知道，什么是大写。取决于区域设置？如果是，如何将“C”语言环境中的utf8大写与预编译的正则表达式匹配？

根据tchrist的评论更新：

use strict; use warnings; use Encode;
my $regex = qr/[[:upper:]]/;

my $line = XXX::line();
print "$line: upper1 ", ($line =~ $regex) ? "YES" : "NO", "\n";

my $uline = Encode::decode_utf8($line);
print "$uline: upper2 ", ($uline =~ $regex) ? "YES" : "NO", "\n";

package XXX;
sub line { return "alpha-Ω"; } #returning octets - not utf8 chars

输出结果为：

alpha-Ω: upper1 NO
alpha-Ω: upper2 YES

这意味着，预编译的正则表达式不是“硬预编译”而是“软预编译” - 所以perl根据匹配的$ line的utf8标志替换'[[：upper：]]'。< / p>

Answer 1

在Perl 5.14之前，这个定义不是很明确。

使用5.14，模式已知如何编译，并且您拥有/u，/l，/d，/a或/aa模式修饰符。你也可以说

use re "/u";

或

use re "/msu";

在词法范围内打开所有这些标志。

例如，在5.14下：

% perl -le 'print qr/foo/'
(?^:foo)
% perl -E 'say qr/foo/'
(?^u:foo)
% perl -E 'say qr/foo/l'
(?^l:foo)

我会避开当地人;只需使用全Unicode。

顺便说一下，我会确信那个“外部源”会给你一个正确解码的字符串;也就是说，它的UTF8标志已打开。字符函数在编码字符串上运行不佳，因为它们确实需要解码字符串。

Perl预编译正则表达式 - utf8

1 个答案: