字符集名称:是否还有其他常用的“拼写错误”字符集,如“UTF8”?

时间:2012-11-21 17:52:52

标签: character-encoding

关于SO的第一个问题: - )

后台:我正在研究需要过滤HTTP流量的软件。在处理需要检查POST请求内容的部分时,问题就是如何解释关于字符集的接收数据。

为了知道我的代码应该在“Content-Type”标题中接受哪些字符集名称,我首先查找了一个详尽的字符集名称列表,并找到了:http://www.iana.org/assignments/character-sets

(当然,这个列表太长了,无法全部支持它们,我将选择一个与我的情况相关的小子集。)

问题:从列表中我认为“UTF8”(不带破折号)不是IANA定义的charset名称,但似乎它仍然有时候仍在使用且大多数服务器/浏览器会理解它。 IANA未列出我的过滤器应该能够理解的更多此类通常理解的字符集名称的案例吗?

一般情况:某处有“更完整”的清单吗?

更具体地说:IANA没有列出US-ASCII字符集的任何别名吗?

1 个答案:

答案 0 :(得分:1)

Masato Kinugawa(@kinugawamasato)列出了每个Web浏览器可接受的字符集名称的列表。参见http://l0.cm/encodings/list/

例如,在Chrome中被视为US-ASCII别名的字符集名称为:

  • windows-1252
  • ansi_x3.4-1968
  • ascii
  • cp1252
  • cp819
  • csisolatin1
  • ibm819
  • iso_8859-1
  • iso_8859-1:1987
  • iso88591
  • iso8859-1
  • ISO-8859-1
  • iso-ir-100
  • l1
  • latin1
  • us-ascii
  • x-cp1252

如站点中所述,您还可以在http://l0.cm/encodings/check/中通过自己测试浏览器的行为。