处理不同的编码字符串相等

时间:2018-06-08 08:22:23

标签: string python-3.x urlencode python-unicode

我有一个烧瓶API,主要处理斯堪的纳维亚文本输入,但是当与前端交互时,我经历过一些重音字符可以用不同的方式表示,即使它们在UI中看起来相同。具体而言,ä可以a%CC%88%C3%A4发送。

当我在API中收到解码后的字符串时,它们看起来相似,但编码不同,一个比另一个长,显然是因为a和a¨在第一个中分开处理上方。

当然,如果这是唯一的情况,那将是微不足道的,但我感觉不是。这可能源于这样一个事实,即我完全不了解这个原因。

理想情况下,我希望能够处理这个并处理/使两个字符串相同,这样用户就不会因此而“受苦”,因此后端的字符串在编码方面是一致的。

目前,系统的其余部分(数据库和其他一些文本相关模块)正在使用latin-1编码。

所以我的问题是,是否有一种优雅的方式来处理这个问题,或者我是否会编写一些粗略的函数来查找我能找到和翻译的所有极端情况。如果是这种情况,也会赞赏这种角落案件的来源。

0 个答案:

没有答案