应用错误收集

处理用于代替拉丁字符的西里尔字母

时间：2012-09-03 10:17:41

标签： utf-8 utf

我们最近有一个用户输入英文文本，但它似乎是在为西里尔文设置的计算机上完成的，因为一些字母如“a”实际上是CYRILLIC SMALL LETTER A，而不是LATIN SMALL信A。

我认为normalising会将西里尔字母转换成拉丁语等价物，但它不会（我猜它们只相当于它们的显示方式而不是它们的含义）。

这是一个常见的问题 - 为西里尔语设置计算机的用户可能会写英文，但用西里尔字母代替吗？

一般来说，发现这种情况并进行适当转换的安全方法是什么？

1 个答案:

答案 0 :(得分：0)

要检测西里尔字母只需使用正则表达式匹配[\ p {IsCyrillic}]。更通用的方法是搜索任何非拉丁字符。你有一个匹配，你需要用他们的拉丁语替换字符。