如何在Perl中的Unicode字符串中仅匹配完全组合的字符?

时间:2008-10-15 03:10:14

标签: regex perl unicode locale character-properties

我正在寻找一种方法来匹配Unicode字符串中的完全组合字符。

[:print:]是否依赖于包含此字符类的任何正则表达式实现中的语言环境?例如,它是否与日语字符'あ'匹配,因为它不是控制字符,或者[:print:]总是为ASCII码0x20到0x7E?

是否有任何字符类,包括Perl RE,可用于匹配控制字符以外的任何内容?如果[:print:]仅包含ASCII范围内的字符,我会认为[:cntrl:]也是如此。

5 个答案:

答案 0 :(得分:6)

echo あ| perl -nle 'BEGIN{binmode STDIN,":utf8"} print"[$_]"; print /[[:print:]]/ ? "YES" : "NO"'

这主要起作用,虽然它会产生关于广泛角色的警告。但它给你的想法是:你必须确定你正在处理一个真正的unicode字符串(检查utf8 :: is_utf8)。或者只是检查perlunicode - 整个主题仍然让我头晕目眩。

答案 1 :(得分:5)

我认为您不需要或不需要语言环境,而是Unicode。如果您已解码文本字符串,\w将匹配任何语言的单词字符,\d不仅匹配0..9,还匹配每个Unicode数字等。在正则表达式中,您可以使用{{查询Unicode属性1}}。特别有趣的可能是\p{PropertyName}Here's a list of all the available Unicode character properties

我写了一个article about the basics and subtleties of Unicode and Perl,它应该让你知道怎么做perl会把你的字符串识别为字符序列,而不仅仅是一个字节序列。

更新:使用Unicode,您不会获得与语言相关的行为,而是无论语言如何都是默认的。这可能是你想要的,也可能不是,但是为了区分priintable / control字符,我不明白为什么你需要语言依赖的行为。

答案 2 :(得分:4)

\X匹配完全组合的字符(序列)。证明:

#!/usr/bin/env perl
use 5.010;
use utf8;
use Encode qw(encode_utf8);

for my $string (qw(あ ご ご), "\x{3099}") {
    say encode_utf8 sprintf "%s $string", $string =~ /\A \X \z/msx ? 'ok' : 'nok';
}

测试数据包括:普通字符,预组合字符,组合字符序列和组合字符(单独“不计数”,简化了Unicode的第3章)。

\X替换[[:print:]],看看Tanktalus的回答是否会产生最后两种情况的错误匹配。

答案 3 :(得分:2)

是的,这些表达式依赖于语言环境。

答案 4 :(得分:1)

您始终可以使用字符类[^[:cntrl:]]来匹配非控制字符。