我知道有很多关于这个问题的答案,但我需要澄清一下。
根据我的理解,ASCII和Unicode都是 charsets , 他们告诉你A是十进制(41),B是十进制(42)。
UTF-8,UTF-16,UTF-32和ANSI 编码 他们的任务是将这些41和42号码存储成他们喜欢的二进制形式,并管理他们的检索和转换回十进制。然后使用charset,您可以获得相应的字符。
但是,我正在研究如何获取网页使用的charset /编码,并在Firefox上使用工具>页面信息。
我可以读到这个:charset = utf-8
(这是页面:http://www.leboncoin.fr/annonces/offres/ile_de_france/)
这是Firefox中的错误吗? 或者,我是否完全误解了字符集/编码?
答案 0 :(得分:0)
你有一些误解的字符集,虽然这不是一个大问题。字符集只是可用字符集,它不必引用任何数字(尽管它们几乎总是这样)。另见:What's the difference between encoding and charset?
这里真正的问题是使用charset
。它来自HTML5元标记,通常看起来像这样:
<meta charset="utf-8" />
尽管HTML5中的名称charset
实际为specifies a character encoding,但不是字符集。这可能是由于字符集和编码之间的历史混淆,因为在Unicode为单个字符集引入多个编码之前两者之间没有太大区别。