检测单个CJK字符

时间:2011-06-13 15:10:17

标签: perl encoding utf-8 cjk

我有一个字符串,可以是英文单词或单个CJK字符。我保证这个字符串是UTF-8编码。我正在使用perl脚本。

更高级别的问题是我有一个像上面描述的字符串数组。我正在加入“”@array。我想知道在它的CJK时不添加空格。

所以对于CJK我只会加入“”@array。

我环顾四周但找不到这个确切的问题。

感谢。

1 个答案:

答案 0 :(得分:6)

您可以使用正则表达式\p{InCJK_Unified_Ideographs}。这是一个Unicode块(与Unicode脚本相反,Perl也支持它,但似乎与您的问题描述不符)。

还有一些其他候选区块,例如扩展A和激进补充。 Here's a full list