清理UTF-8中的文本

时间:2014-05-22 15:40:29

标签: python validation utf-8 data-cleansing

我有一个界面,用户可以在一行文字中为不同类型的实体输入人类可读的名称,主要是指与业务相关的任务,活动和操作。这也包括数字。

我们希望此界面支持多种人类语言,但同时我们希望避免以后可能会破坏的条目,特别是格式化,新行字符,制表符以及字符或控制代码的组合不要打印。

我是本地化主题的新手,但是有没有utf-8字符的众所周知的子集,或用于验证多语言(utf-8)文本的一套实践?从实际的角度来看,我最感兴趣的是Python中的解决方案,但我绝对对其他语言的通用解决方案持开放态度。有人这样做应该注意什么?

0 个答案:

没有答案