字符集特殊字符

时间:2012-04-05 01:42:04

标签: utf-8 iso-8859-1 windows-1252 iso-8859-2

  • iso-8859-1是utf-8的合适子集吗?
  • iso-8859-n怎么样?
  • windows-1252怎么样?

如果上述任何一个答案都是否定的,那么不相交的字符是什么?我正在测试一些检测字符集的逻辑,并希望编写测试以验证检测是否正常工作。

2 个答案:

答案 0 :(得分:9)

  

iso-8859-1是utf-8的合适子集吗?

ISO-8859-1的字符reportoire (Unicode的前256个字符)是UTF-8(每个Unicode字符)的正确子集。

但是,characters U+0080 to U+00FF在两种编码中的编码不同。

  • ISO-8859-1从80FF为每个字符分配单字节
  • UTF-8将与双字节序列C2 80相同的字符编码为C3 BF
  

iso-8859-n怎么样?

这些是15种不同的编码,共包含614个不同的字符。其中一些字符出现在ISO 8859的多个“部分”中,有些则不出现。你必须更加具体。

我看到你的问题被标记为ISO-8859-2。 -2中不在-1中的字符是:

Ă㥹ĆćČčĎďĐđĘęĚěĹ弾ŁłŃńŇňŐőŔŕŘřŚśŞşŠšŢţŤťŮůŰűŹźŻżŽžˇ˘˙˛˝

  

windows-1252怎么样?

Windows-1252与ISO-8859-1类似,不同之处在于它使用可打印字符替换0x80-0x9F范围内很少使用的控制字符。 Windows-1252中但不在ISO-8859-1中的字符是:

ŒœŠšŸŽžƒˆ˜–—‘’‚“”„†‡•…‰‹›€™

答案 1 :(得分:1)

Unicode是所有这些字符集的超集,以及几乎所有已建立的字符集。您可以在此处找到所有这些字符集到Unicode代码点的映射列表:http://unicode.org/Public/MAPPINGS/