我正在尝试将Déjà用于我的搜索查询。使用
URLEncoder.encode(searchKey, "UTF-8"));
它应该给我D%C3%A9j%C3%A0,但给我De%CC%81ja%CC%80
当我将2个字符复制到记事本或浏览器时。它变为1个字符。
检查Déjà和Déjà
两者看起来都相同,但价值观并不相同。尝试复制,粘贴和删除字符。
答案 0 :(得分:0)
在Unicode中,有很多方法可以表示相同的字符。
例如é
可以是LATIN SMALL LETTER E WITH ACUTE,也可以是e
后跟COMBINING ACUTE ACCENT。前者的utf-8编码为c3a9
,后者为cc81
。
与à
的故事相同。
通常这不是问题。如果您确实需要特定的unicode格式,请查看Normalizer
。