我正在开发一个纯文本阅读器应用程序。有时app无法自动确定文件的编码,因此用户需要从编码列表中选择编码。如果此列表包含所有支持的编码,则它将太长。我想提供一个简化的列表,只包含每种语言最常见的编码。
这是我所知道的一些关系:
如果你知道任何其他语言最常见的编码,请告诉我。
答案 0 :(得分:52)
FWIW,以下是按默认字符编码分组的Windows XP区域设置:
和most common encodings overall on the Web:
答案 1 :(得分:2)
HTML5草稿包含default encodings for languages表,反映了被视为常见的内容。但请注意,它应该基于用户区域设置,即浏览器或操作系统的语言,而不是文档的语言 - 显然是因为后者通常是未知的,至少在您实际阅读文档之前,基于对编码的一些假设。
我认为你可以在一个流行的网络浏览器中复制编码列表。如果它在那里运行良好,它可能在您的应用程序中运行得相当好。浏览器对列表及其顺序做了一些聪明的事情,但在实践中,我认为只需要一个简短的列表就足够了,比如utf-8,utf-16,windows-1252,也许还有其他几个,然后选择获得完整列表。请注意,尽管utf-16几乎未使用且对网页无用,但对于纯文本文件来说,这种情况很常见。重要的是要很好地命名编码,最好使用通用的英语(或其他语言)名称以及括号中的IANA“charset”名称 - 就像浏览器一样。
答案 2 :(得分:1)
我会推荐像浏览器使用的菜单结构。例如Firefox:View - >字符编码 - >更多编码 - >东亚 - >中国/日文/韩文。 (好吧,如果你只是看起来更容易)。和视图 - >编码 - >在IE中更多。
可能看起来太深笨,但它非常熟悉。并且不会删除有用的编码(例如,为什么KOI8-R用于俄语?如果我使用Windows 1251并且不在列表中会发生什么?)