如何规范字体?

时间:2019-03-15 23:32:59

标签: unicode normalize

用户有时在程序中使用奇怪的ASCII字符,我想知道是否有一种方法可以对其进行“规范化”。

因此,基本上,如果输入ᴀʙᴄᴅᴇꜰɢ,则输出将为ABCDEFG。在某处存在这样的字典吗?如果不是,是否有比对所有不同的“字体”执行类似str.replace("ᴀ", "A")的方法更好的方法?

这不是特定于语言的问题-如果不存在这样的东西,我想下一步就是自己创建字典。

2 个答案:

答案 0 :(得分:1)

您的示例似乎包含Unicode字符,而不是ASCII字符。 Unicode normalizationFAQ)是一个大而复杂的主题,根据您要尝试的工作,有许多不同的等价字符类别。

答案 1 :(得分:0)

是的

BTW-技术术语为:来自C0控件和Basic Latin块的拉丁大写字母和来自语音扩展块的拉丁小写字母。

无论如何,您要提问的主题是Unicode confusables。该链接用于映射。 Uncode.org提供了更多有关易混淆内容和Unicode的内容。

(在处理Unicode文本时始终要考虑规范化,但与该问题无关)。