我在我的应用中使用此代码。刚发现比较韩国时不正确
for (NSString *lang in array){
NSString *currentLang = [[MLLanguage sharedInstance] lang];
BOOL flag = [lang isEqualToString:currentLang];
NSLog(@"\n'%@' isEqual to '%@', %d\n%@\n%@", lang, currentLang, flag?1:0, [lang dataUsingEncoding:NSUTF8StringEncoding], [currentLang dataUsingEncoding:NSUTF8StringEncoding]);
错误的结果:两个韩语单词比较为不同
2012-06-19 21:16:52.681 Motilink[10188:11903] -[MLSettingLanguageViewController loadDownloadedData][Line 50]
'English' isEqual to '한국어', 0
<456e676c 697368>
<ed959cea b5adec96 b4>
2012-06-19 21:16:52.682 Motilink[10188:11903] -[MLSettingLanguageViewController loadDownloadedData][Line 50]
'한국어' isEqual to '한국어', 0
<e18492e1 85a1e186 abe18480 e185aee1 86a8e184 8be185a5>
<ed959cea b5adec96 b4>
2012-06-19 21:16:52.682 Motilink[10188:11903] -[MLSettingLanguageViewController loadDownloadedData][Line 50]
'中国语' isEqual to '한국어', 0
<e4b8ade5 9bbde8af ad>
<ed959cea b5adec96 b4>
正确的一个:
2012-06-19 21:35:00.908 Motilink[10188:11903] -[MLSettingLanguageViewController loadDownloadedData][Line 50]
'English' isEqual to '中国语', 0
<456e676c 697368>
<e4b8ade5 9bbde8af ad>
2012-06-19 21:35:00.909 Motilink[10188:11903] -[MLSettingLanguageViewController loadDownloadedData][Line 50]
'한국어' isEqual to '中国语', 0
<e18492e1 85a1e186 abe18480 e185aee1 86a8e184 8be185a5>
<e4b8ade5 9bbde8af ad>
2012-06-19 21:35:00.909 Motilink[10188:11903] -[MLSettingLanguageViewController loadDownloadedData][Line 50]
'中国语' isEqual to '中国语', 1
<e4b8ade5 9bbde8af ad>
<e4b8ade5 9bbde8af ad>
似乎:NSString自己使用编码,
英语只使用像ascii
这样的7字节中文使用9字节,可能是utf8
但在韩国,它似乎有两个不同的结果,
有没有人知道这个
答案 0 :(得分:9)
这里的问题是你比较非规范化的字符串。在Unicode中,您可以直接使用字符,也可以从其他字符组成字符。例如,在德语中,有一个字符“ä”,可以用代码点“ä”表示,也可以用“¨”和“a”的代码点序列表示。
你在韩国字符串中遇到同样的问题:虽然它们在输出中看起来相同,但其中一个被分解(导致UTF-8数据表示更长)而另一个则没有。
解决此问题的一种方法是使用标准化所有字符串
- [NSString precomposedStringWithCanonicalMapping]
:
BOOL flag = [[lang precomposedStringWithCanonicalMapping] isEqualToString:
[currentLang precomposedStringWithCanonicalMapping]];