我使用此正则表达式从任何非字母数字字符
中清除字符串/[^0-9a-z]/gi
然而,在我的程序中,有一些字符串,包括阿拉伯语,希伯来语,中文和荷兰语字符,这些字符串由此正则表达式清理。 为了将来的支持,我想使用不会清除任何语言的任何字母数字字符的正则表达式。 是否有可能创建这样的?
答案 0 :(得分:-1)
也许你可以尝试使用unicode逃生。
[\ u0041- \ u005A]相当于[A-Z]。
[\ u0600- \ u06FF]将以阿拉伯语字符为例。
您可以查看的代码: https://unicode-table.com/en/
同样在这里他们被分组: https://unicode-table.com/en/blocks/control-character/