根据我的理解,unicode字符有各种各样的表示。
例如,代码点或十六进制字节(如果使用UTF-8编码,这两个表示并不总是相同的。)如果我想搜索可见的unicode字符(例如汉
),我可以复制它并搜索。即使我不知道它的基础unicode表示,这也有效。但对于其他可能不容易看到的字符,例如zeros width space,这种方式效果不佳。对于这些字符,我们可能希望使用其代码点进行搜索。
如果我知道角色的代码点,如何使用正则表达式在崇高文本中进行搜索?我突出显示崇高文字,因为不同的编辑器可能会使用不同的格式。
答案 0 :(得分:2)
答案 1 :(得分:1)
对于code point为CODE_POINT
(代码点必须为十六进制格式)的unicode字符,我们可以安全地使用格式\x{CODE_POINT}
的正则表达式来搜索它。
对于代码点可以容纳两个十六进制数字的unicode字符,可以使用没有花括号的\x
,但是对于那些代码点超过两个十六进制数字的字符,你必须使用{{ 1}}后跟花括号。
例如,为了找到字符\x
,您可以使用A
或\x{41}
进行搜索。
作为另一个示例,为了找到\x41
(根据here,其代码点为我
),您必须使用{{1搜索它而不是U+6211
(见下图)。如果您使用\x{6211}
,则无法找到字符\x6211
。