#!/usr/bin/perl -T
use strict;
use warnings;
use utf8;
my $s = shift || die;
$s =~ s/[^A-Za-z ]//g;
print "$s\n";
exit;
> ./poc.pl "El Guapö"
El Guap
有没有办法修改这个Perl代码,以便不删除各种变音符号和字符重音?谢谢!
答案 0 :(得分:7)
对于直接问题,您可能只需要\p{L}
(Letter)Unicode Character Property
然而,更重要的是,解码所有输入和编码输出。
use warnings;
use strict;
use feature 'say';
use utf8; # allow non-ascii (UTF-8) characters in the source
use open ':std', ':encoding(UTF-8)'; # for standard streams
use Encode qw(decode_utf8); # @ARGV escapes the above
my $string = 'El Guapö';
if (@ARGV) {
$string = join ' ', map { decode_utf8($_) } @ARGV;
}
say "Input: $string";
$string =~ s/[^\p{L} ]//g;
say "Processed: $string";
以script.pl 123 El Guapö=_
Input: 123 El Guapö=_ Processed: El Guapö
我使用了“毯子”\p{L}
属性( Letter ),因为缺乏具体说明;如果/需要调整。 Unicode属性提供了很多,请参阅上面的链接和perluniprops的完整列表。
123 El
之间的空格仍然存在,最后可能会删除前导(和尾随)空格。
请注意,还有\P{L}
,其中大写P
表示否定。
上述简单明了的\pL
不适用于Combining Diacritical Marks,因为该标记也会被移除。感谢jm666指出这一点。
当重音的“逻辑”字符(显示为单个字符)使用单独的字符作为其基础和非间距标记(组合重音符)时,会发生这种情况。通常,单个字符(extended grapheme cluster)及其代码点也存在。
示例:在niño
中,ñ
为U+OOF1
,但也可以写为"n\x{303}"
。
要保持以这种方式书写的重音符号,请将\p{Mn}
(\p{NonspacingMark}
)添加到字符类
my $string = "El Guapö=_ ni\N{U+00F1}o.* nin\x{303}o+^";
say $string;
(my $nodiac = $string) =~ s/[^\pL ]//g; #/ naive, accent chars get removed
say $nodiac;
(my $full = $string) =~ s/[^\pL\p{Mn} ]//g; # add non-spacing mark
say $full;
输出
El Guapö=_ niño.* niño+^ El Guapö niño nino El Guapö niño niño
所以你想要s/[^\p{L}\p{Mn} ]//g
来保持组合重音。