字符集和字符编码有什么区别?当我说我使用utf-8编码时,那将是我的字符集?默认情况下是否将unicode作为charset?
答案 0 :(得分:4)
UTF-8是Unicode字符集的编码。因此,如果您使用的是UTF-8,则字符集是Unicode,但您不必在任何地方单独指定。 Unicode的另一个主要编码是UTF-16,它不包含在8位字节流中,因为它包含零字节。如果您在字节序列中处理Unicode,它肯定编码为UTF-8。
除了Unicode之外,字符集通常被认为具有单个固定编码,然后字符集,字符集,代码页,编码等术语通常可互换使用,或者取决于供应商。这很草率但不会产生运行时问题。
我能想到的唯一可能的例外是东亚:JIS和EUC最初为同一字符集定义了多种编码,但在今天的实践中,每种编码都是单独处理的。
答案 1 :(得分:3)
字符集:定义哪个字符具有哪个数字代码点(ascii,jis,unicode)
编码:定义数字代码点的物理表示方式(utf,ucs,shiftjis)
答案 2 :(得分:2)
像MIME这样的旧协议使用“charset”时,它们实际上是指“字符编码方案”。最初,不同的字符编码虽然是独立的字符集,而不是Unicode的子集。
答案 3 :(得分:0)
字符集定义数字和字符之间的映射。几乎所有的字符集都说65是A,并且一般都同意数字到127的映射。但是当它涉及127以上的数字时,它们可能有不同的立场。
有很多字符集
当你说字符编码时,你在谈论如何在内部存储Unicode代码点(字符)。
这篇文章几乎完全基于Joel Spolsky关于Unicode的帖子:The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets。阅读它以获得更好的主意。
答案 4 :(得分:-2)