用户有时在程序中使用奇怪的ASCII字符,我想知道是否有一种方法可以对其进行“规范化”。
因此,基本上,如果输入ᴀʙᴄᴅᴇꜰɢ
,则输出将为ABCDEFG
。在某处存在这样的字典吗?如果不是,是否有比对所有不同的“字体”执行类似str.replace("ᴀ", "A")
的方法更好的方法?
这不是特定于语言的问题-如果不存在这样的东西,我想下一步就是自己创建字典。
答案 0 :(得分:1)
您的示例似乎包含Unicode字符,而不是ASCII字符。 Unicode normalization(FAQ)是一个大而复杂的主题,根据您要尝试的工作,有许多不同的等价字符类别。
答案 1 :(得分:0)
是的
BTW-技术术语为:来自C0控件和Basic Latin块的拉丁大写字母和来自语音扩展块的拉丁小写字母。
无论如何,您要提问的主题是Unicode confusables。该链接用于映射。 Uncode.org提供了更多有关易混淆内容和Unicode的内容。
(在处理Unicode文本时始终要考虑规范化,但与该问题无关)。