UTF-8的非语言字符列表

时间:2016-08-17 14:08:33

标签: python-2.7 utf-8

我有一个字符串列表,可以使用多种语言,而不仅仅是英语。

是否只有UTF-8的语言字符列表?

查看以下UTF-8 categories,我想删除所有字符(或将其替换为“”) [L *] 类别。

我想只删除这些字符,我该怎么做?

例如:

我有一个用俄语写的字符串,当我使用split()时,我得到:

['\xd0\x9f\xd1\x80\xd0\xb8\xd0\xb2\xd0\xb5\xd1\x82']

==>所以这些都是语言字符

另一方面,我有这个字符串:“允许的最高温度-70°C”。当我使用split()时,我得到:

['Maximum', 'temperature', 'allowed', '70\xc2\xb0C'] 

==>所以\xc2\xb0是一个非语言字符

0 个答案:

没有答案