应用错误收集

时间：2019-03-15 23:32:59

标签： unicode normalize

用户有时在程序中使用奇怪的ASCII字符，我想知道是否有一种方法可以对其进行“规范化”。

因此，基本上，如果输入ᴀʙᴄᴅᴇꜰɢ，则输出将为ABCDEFG。在某处存在这样的字典吗？如果不是，是否有比对所有不同的“字体”执行类似str.replace("ᴀ", "A")的方法更好的方法？

这不是特定于语言的问题-如果不存在这样的东西，我想下一步就是自己创建字典。

答案 0 :(得分：1)

您的示例似乎包含Unicode字符，而不是ASCII字符。 Unicode normalization（FAQ）是一个大而复杂的主题，根据您要尝试的工作，有许多不同的等价字符类别。

答案 1 :(得分：0)

是的

BTW-技术术语为：来自C0控件和Basic Latin块的拉丁大写字母和来自语音扩展块的拉丁小写字母。

无论如何，您要提问的主题是Unicode confusables。该链接用于映射。 Uncode.org提供了更多有关易混淆内容和Unicode的内容。

（在处理Unicode文本时始终要考虑规范化，但与该问题无关）。