剥离字符串,但允许变音符号

时间:2017-05-03 23:44:08

标签: regex perl diacritics

#!/usr/bin/perl -T
use strict;
use warnings;
use utf8;
my $s = shift || die;
$s =~ s/[^A-Za-z ]//g;
print "$s\n";
exit;

> ./poc.pl "El Guapö"
El Guap

有没有办法修改这个Perl代码,以便不删除各种变音符号和字符重音?谢谢!

1 个答案:

答案 0 :(得分:7)

对于直接问题,您可能只需要\p{L}(Letter)Unicode Character Property

然而,更重要的是,解码所有输入和编码输出

use warnings;
use strict;
use feature 'say';

use utf8;   # allow non-ascii (UTF-8) characters in the source

use open ':std', ':encoding(UTF-8)';  # for standard streams

use Encode qw(decode_utf8);           # @ARGV escapes the above

my $string = 'El Guapö';
if (@ARGV) {
    $string = join ' ', map { decode_utf8($_) } @ARGV;
}
say "Input:     $string";

$string =~ s/[^\p{L} ]//g;

say "Processed: $string";

script.pl 123 El Guapö=_

运行时
Input:     123 El Guapö=_
Processed:  El Guapö

我使用了“毯子”\p{L}属性( Letter ),因为缺乏具体说明;如果/需要调整。 Unicode属性提供了很多,请参阅上面的链接和perluniprops的完整列表。

123 El之间的空格仍然存在,最后可能会删除前导(和尾随)空格。

请注意,还有\P{L},其中大写P表示否定。

上述简单明了的\pL不适用于Combining Diacritical Marks,因为该标记也会被移除。感谢jm666指出这一点。

当重音的“逻辑”字符(显示为单个字符)使用单独的字符作为其基础和非间距标记(组合重音符)时,会发生这种情况。通常,单个字符(extended grapheme cluster)及其代码点也存在。

示例:在niño中,ñU+OOF1,但也可以写为"n\x{303}"

要保持以这种方式书写的重音符号,请将\p{Mn}\p{NonspacingMark})添加到字符类

my $string = "El Guapö=_ ni\N{U+00F1}o.* nin\x{303}o+^";
say $string;

(my $nodiac = $string) =~ s/[^\pL ]//g;      #/ naive, accent chars get removed
say $nodiac;

(my $full = $string) =~ s/[^\pL\p{Mn} ]//g;  # add non-spacing mark
say $full;

输出

El Guapö=_  niño.* niño+^
El Guapö niño nino
El Guapö niño niño

所以你想要s/[^\p{L}\p{Mn} ]//g来保持组合重音。