Unicode和UTF-8的区别,来自整个互联网的不一致之处

时间:2015-09-15 12:35:20

标签: encoding character-encoding

我知道有很多关于这个问题的答案,但我需要澄清一下。

根据我的理解,ASCII和Unicode都是 charsets , 他们告诉你A是十进制(41),B是十进制(42)。

UTF-8,UTF-16,UTF-32和ANSI 编码 他们的任务是将这些41和42号码存储成他们喜欢的二进制形式,并管理他们的检索和转换回十进制。然后使用charset,您可以获得相应的字符。

但是,我正在研究如何获取网页使用的charset /编码,并在Firefox上使用工具>页面信息。

我可以读到这个:charset = utf-8

(这是页面:http://www.leboncoin.fr/annonces/offres/ile_de_france/

这是Firefox中的错误吗? 或者,我是否完全误解了字符集/编码?

1 个答案:

答案 0 :(得分:0)

你有一些误解的字符集,虽然这不是一个大问题。字符集只是可用字符集,它不必引用任何数字(尽管它们几乎总是这样)。另见:What's the difference between encoding and charset?

这里真正的问题是使用charset。它来自HTML5元标记,通常看起来像这样:

<meta charset="utf-8" />

尽管HTML5中的名称charset实际为specifies a character encoding,但不是字符集。这可能是由于字符集和编码之间的历史混淆,因为在Unicode为单个字符集引入多个编码之前两者之间没有太大区别。