标签: python string utf-8 character-encoding tamil
我不是泰米尔语使用者,但是,对于正在开发的简单NLP应用程序,我必须检测python字符串中的字符(与数字,标点符号,HTML标记混合)是否是泰米尔语。如果没有,我只需要删除字符即可。这个概念很简单,但是即使经过大量搜索,我也无法在UTF-8中找到泰米尔字符范围。需要一些帮助。它是连续的数字块,例如ASCII大写字母中的65到90?还是我需要开发更复杂的东西来检查每个字符?
答案 0 :(得分:3)
Tamil script上的维基百科:
Unicode范围:U+0B80–U+0BFF