如何在使用unicode字符属性时模拟单词边界?

时间:2013-02-18 18:08:36

标签: regex perl unicode utf-8 locale

从我之前的问题Why under locale-pragma word characters do not match?How to change nested quotes我了解到,在处理UTF-8数据时,您不能将\w信任为word-char,并且必须使用Unicode字符属性\p{Word}。现在,我发现零宽度字边界\b也不适用于UTF-8(启用了区域设置),但我没有在Unicode字符属性中找到任何等效字符。我想我可以自己构建它:(?<=\P{Word})(\p{Word}+)(?=\P{Word}),它应该等同于\b(\w+)\b

在下面的测试脚本中,我有两个数组来测试两个不同的正则表达式。当未启用语言环境时,基于\b的第一个工作正常。为了使它也能与locales一起工作,我编写了另一个模拟边界(?=\P{Word})的版本,但它没有按照我的预期工作(我也在脚本中显示了预期的结果)。

你是否看到了什么问题以及如何使用ASCII(或没有语言环境)首先使用模拟的正则表达式工作?

#!/usr/bin/perl

use 5.010;
use utf8::all;
use locale; # et_EE.UTF-8 in my case
$| = 1;

my @test_boundary = (  # EXPECTED RESULT:
  '"abc def"',         # '«abc def»'
  '"abc "d e f" ghi"', # '«abc «d e f» ghi»'
  '"abc "d e f""',     # '«abc «d e f»»'
  '"abc "d e f"',      # '«abc "d e f»'
  '"abc "d" "e" f"',   # '«abc «d» «e» f»'
  # below won't work with \b when locale enabled
  '"100 Естонiï"',     #  '«100 Естонiï»'
  '"äöõ "ä õ ü" ï"',   # '«äöõ «ä õ ü» ï»'
  '"äöõ "ä õ ü""',     # '«äöõ «ä õ ü»»'
  '"äöõ "ä õ ü"',      # '«äöõ «ä õ ü»'
  '"äöõ "ä" "õ" ï"',   # '«äöõ «ä» «õ» ï»'
);

my @test_emulate = (   # EXPECTED RESULT:
  '"100 Естонiï"',     # '«100 Естонiï»'
  '"äöõ "ä õ ü" ï"',   # '«äöõ «ä õ ü» ï»'
  '"äöõ "ä õ ü""',     # '«äöõ «ä õ ü»»'
  '"äöõ "ä õ ü"',      # '«äöõ "ä õ ü»'
  '"äöõ "ä" "õ" ï"',   # '«äöõ «ä» «õ» ï»'
);

say "BOUNDARY";
for my $sentence ( @test_boundary ) {
  my $quote_count = ( $sentence =~ tr/"/"/ );

  for ( my $i = 0 ; $i <= $quote_count ; $i += 2 ) {
    $sentence =~ s/
      "(                          # first qoute, start capture
        [\p{Word}\.]+?            # suva word-char
        .*?\b[\.,?!»]*?           # any char followed boundary + opt. punctuation
      )"                          # stop capture, ending quote
      /«$1»/xg;                   # change to fancy
  }
  say $sentence;
}

say "EMULATE";
for my $sentence ( @test_emulate ) {
  my $quote_count =  ( $sentence =~ tr/"/"/ );

  for ( my $i = 0 ; $i <= $quote_count ; $i += 2 ) {
    $sentence =~ s/
      "(                         # first qoute, start capture
      [\p{Word}\.]+?             # at least one word-char or point
      .*?(?=\P{Word})            # any char followed boundary 
      [\.,?!»]*?                 # optional punctuation
      )"                         # stop capture, ending quote
      /«$1»/gx;                  # change to fancy
  }
  say $sentence;
}

2 个答案:

答案 0 :(得分:7)

由于\b位置之后的字符是标点符号或"(为了安全起见,请仔细检查\p{Word}是否与其中任何一个都不匹配)进入案件\b\W。因此,我们可以使用以下代码模拟\b

(?<=\p{Word})

我不熟悉Perl,但是从what I tested here开始,当编码设置为UTF-8时,似乎\w(和\b)也能很好地工作。

$sentence =~ s/
  "(
    [\w\.]+?
    .*?\b[\.,?!»]*?
  )"
  /«$1»/xg;

如果您升级到Perl 5.14及更高版本,则可以使用u标志将字符集设置为Unicode。


您可以使用此一般策略来构造与字符类对应的边界。 (就像\b词边界定义基于\w)的定义一样。

C成为角色类。我们想要定义一个基于字符类C的边界。

当您知道当前字符属于C字符类(相当于(\b\w))时,下面的构造将模拟前面的边界:

(?<!C)C

或落后(相当于\w\b):

C(?!C)

为什么是负面的环顾?因为正面的环顾(带有互补的字符类)也会断言必须有前后的字符(断言 width 前后至少1)。负面的环顾将允许字符串开头/结尾的情况,而无需编写繁琐的正则表达式。


\B\w仿真:

(?<=C)C

,同样\w\B

C(?=C)

\B\b正好相反,因此,我们只需翻转正面/负面环视即可模拟效果。这也是有道理的 - 只有在前方/后方有更多角色时才能形成非边界。


其他模拟(让c成为C的补充字符类):

  • \b\W(?<=C)c
  • \W\bc(?=C)
  • \B\W(?<!C)c
  • \W\Bc(?!C)

用于模拟独立边界(相当于\b):

(?:(?<!C)(?=C)|(?<=C)(?!C))

独立的非边界(相当于\B):

(?:(?<!C)(?!C)|(?<=C)(?=C))

答案 1 :(得分:5)

你应该使用否定的外观:

(?<!\p{Word})(\p{Word}+)(?!\p{Word})

正面结果在字符串的开头或结尾处失败,因为它们需要存在非单词字符。在两种情况下,负面的外观都有效。