我有一个字符串列表,可以使用多种语言,而不仅仅是英语。
是否只有UTF-8的非语言字符列表?
查看以下UTF-8 categories,我想删除所有字符(或将其替换为“”)除 [L *] 类别。
我想只删除这些字符,我该怎么做?
例如:
我有一个用俄语写的字符串,当我使用split()时,我得到:
['\xd0\x9f\xd1\x80\xd0\xb8\xd0\xb2\xd0\xb5\xd1\x82']
==>所以这些都是语言字符
另一方面,我有这个字符串:“允许的最高温度-70°C”。当我使用split()时,我得到:
['Maximum', 'temperature', 'allowed', '70\xc2\xb0C']
==>所以\xc2\xb0
是一个非语言字符