Question

我有一个unicode字符串，除了普通字符外，还包含一些奇怪的字符。我已经找到了其中一些字符的“UTF-16（十六进制）”编码，并使用一些简单的正则表达式将其删除，例如：

$text =~ s/(\s+\x{200C}+|\x{200C}+\s+)/ /g;

上述行用于删除不必要的“零宽度非连接空间”。但我有一些困难去除其余的。我想知道是否有一个工具或命令，你可以给它你的unicode字符串，它返回等效的“UTF-16（十六进制）”编码。所以，基本上我想用我的字符串（包含奇怪的字符）来提供它并获得字符的“UTF-16（十六进制）”编码，以便能够编写一些正则表达式来删除它们。我必须指出，我的文本主要是波斯语和阿拉伯语，而不是英语。

我得到了上述问题的答案，但我仍然存在的整个问题。实际上，我有一些像“阿拉伯语元音”的字符，我想从字符串中删除它们。当我在perl中找到这些字符的代码时，我写了一行来删除它们：

$text =~ s/\x{0618}\x{0619}\x{0621}\x{064B}\x{064C}\x{064D}\x{064E}\x{064F}\x{0650}\x{0651}\x{0652}\x{0653}\x{0654}\x{0655}\x{0656}\x{0657}\x{0658}\x{0659}\x{065A}\x{065B}\x{065C}\x{065D}\x{065E}\x{FC5E}\x{FC5F}\x{FC60}\x{FC60}\x{FC61}\x{FC62}\x{FE80}//g;

但奇怪的是，它并不适用于所有情况。例如，“阿拉伯语Kasra（\ x）}”应该被这行代码检测和替换，但事实并非如此。我已经提到，对于下面一行中的字符，它可以工作：

\x{064B}\x{064C}\x{064D}\x{064E}\x{064F}\x{065A}\x{065B}\x{065C}\x{065D}\x{065E}\x{FC5E}\x{FC5F}\x{FC60}\x{FC60}\x{FC61}\x{FC62}\x{FE80}

而对其他人则没有：

\x{0618}\x{0619}\x{0621}\x{0650}\x{0651}\x{0652}\x{0653}\x{0654}\x{0655}\x{0656}\x{0657}\x{0658}\x{0659}

有什么想法吗？

谢谢，

Answer 1

U + 200C的UTF-16le和UTF-16be编码为"\x0C\x20"和"\x20\x0C"，而不是"\x{200C}"。这与UTF-16无关。

您只需要字符数的十六进制表示。（它甚至与Unicode无关。）

每个角色的十六进制：
```
print(sprintf("%v04X", $str), "\n");
```

有时十六进制有时是非ASCII和不可打印的ASCII字符的八进制：

use Data::Dumper qw( Dumper );
local $Data::Dumper::Useqq = 1;
local $Data::Dumper::Terse = 1;
local $Data::Dumper::Indent = 0;
print(Dumper($str), "\n");

非ASCII和不可打印的ASCII字符的十六进制：

my $lit = qq{"\Q$str\E"};
$lit =~ s/([^\x20-\x7E])/ sprintf('\\x{%04X}', ord($1)) /eg;
print("$lit\n");

找到unicode字符串的HEX代码

1 个答案: