如果上述任何一个答案都是否定的,那么不相交的字符是什么?我正在测试一些检测字符集的逻辑,并希望编写测试以验证检测是否正常工作。
答案 0 :(得分:9)
iso-8859-1是utf-8的合适子集吗?
ISO-8859-1的字符reportoire (Unicode的前256个字符)是UTF-8(每个Unicode字符)的正确子集。
但是,characters U+0080 to U+00FF在两种编码中的编码不同。
80
到FF
为每个字符分配单字节。C2 80
相同的字符编码为C3 BF
。iso-8859-n怎么样?
这些是15种不同的编码,共包含614个不同的字符。其中一些字符出现在ISO 8859的多个“部分”中,有些则不出现。你必须更加具体。
我看到你的问题被标记为ISO-8859-2。 -2中不在-1中的字符是:
Ă㥹ĆćČčĎďĐđĘęĚěĹ弾ŁłŃńŇňŐőŔŕŘřŚśŞşŠšŢţŤťŮůŰűŹźŻżŽžˇ˘˙˛˝
windows-1252怎么样?
Windows-1252与ISO-8859-1类似,不同之处在于它使用可打印字符替换0x80-0x9F范围内很少使用的控制字符。 Windows-1252中但不在ISO-8859-1中的字符是:
ŒœŠšŸŽžƒˆ˜–—‘’‚“”„†‡•…‰‹›€™
答案 1 :(得分:1)
Unicode是所有这些字符集的超集,以及几乎所有已建立的字符集。您可以在此处找到所有这些字符集到Unicode代码点的映射列表:http://unicode.org/Public/MAPPINGS/。