我有一个字符串,可以是英文单词或单个CJK字符。我保证这个字符串是UTF-8编码。我正在使用perl脚本。
更高级别的问题是我有一个像上面描述的字符串数组。我正在加入“”@array。我想知道在它的CJK时不添加空格。
所以对于CJK我只会加入“”@array。
我环顾四周但找不到这个确切的问题。
感谢。
答案 0 :(得分:6)
您可以使用正则表达式\p{InCJK_Unified_Ideographs}
。这是一个Unicode块(与Unicode脚本相反,Perl也支持它,但似乎与您的问题描述不符)。
还有一些其他候选区块,例如扩展A和激进补充。 Here's a full list