应用错误收集

每种语言最常见的编码是什么？

时间：2011-12-14 17:56:45

标签： encoding character-encoding

我正在开发一个纯文本阅读器应用程序。有时app无法自动确定文件的编码，因此用户需要从编码列表中选择编码。如果此列表包含所有支持的编码，则它将太长。我想提供一个简化的列表，只包含每种语言最常见的编码。

这是我所知道的一些关系：

繁体中文：Big5
简体中文：GB18030
日语：Shift-JIS，EUC-JP
俄语：KOI8-R

如果你知道任何其他语言最常见的编码，请告诉我。

3 个答案:

答案 0 :(得分：52)

FWIW，以下是按默认字符编码分组的Windows XP区域设置：

Big5 ：zh_HK，zh_MO，zh_TW
GBK （≈GB2312）：zh_CN，zh_SG
Windows-31J （≈Shift_JIS）：ja_JP
windows-874 （≈TIS-620，ISO-8859-11）：th_TH
windows-949 （≈EUC-KR）：ko_KR
windows-1250 ：bs_BA，cs_CZ，hr_BA，hr_HR，hu_HU，pl_PL，ro_RO，sk_SK，sl_SI，sq_AL，sr_BA，sr_SP
的窗口-1251 ：az_AZ，be_BY，bg_BG，kk_KZ，ky_KG，mk_MK，mn_MN，ru_RU，sr_BA，sr_SP，tt_RU，uk_UA，uz_UZ

的窗口1252 （≈ISO-8859-1）：af_ZA，arn_CL，ca_ES，cy_GB，da_DK，de_AT，将de_CH，de_DE这个，de_LI，de_LU，EN_AU，en_BZ，en_CA，en_CB， en_GB，en_IE，en_JM，en_NZ，en_PH，en_TT，en_US，en_ZA，en_ZW，es_AR，es_BO，es_CL，es_CO，es_CR，es_DO，es_EC，es_ES，es_GT，es_HN，es_MX，es_NI，es_PA，es_PE，es_PR，es_PY， es_SV，es_UY，es_VE，eu_ES，fi_FI，fil_PH，fo_FO，fr_BE，fr_CA，fr_CH表示，fr_FR，则fr_LU，fr_MC，fy_NL，ga_IE，gl_ES，id_ID，is_IS，it_CH，it_IT，iu_CA，iv_IV，lb_LU，moh_CA，ms_BN， ms_MY，nb_NO，nl_BE，nl_NL，nn_NO，ns_ZA，pt_BR表示，PT_PT，qu_BO，qu_EC，qu_PE，rm_CH，se_FI，se_NO，se_SE，sv_FI，sv_SE，sw_KE，tn_ZA，xh_ZA，zu_ZA

windows-1253 ：el_GR

windows-1254 （≈ISO-8859-9）：az_AZ，tr_TR，uz_UZ

windows-1255 ：he_IL

的窗口-1256 ：ar_AE，ar_BH，ar_DZ，ar_EG，ar_IQ，ar_JO，ar_KW，ar_LB，ar_LY，ar_MA，ar_OM，ar_QA，ar_SA，ar_SY，ar_TN，ar_YE，fa_IR，ps_AF， ur_PK

windows-1257 ：et_EE，lt_LT，lv_LV

windows-1258 ：vi_VN

和most common encodings overall on the Web：

UTF-8（89.2％）

ISO-8859-1（5.0％）

Windows-1251（1.6％）

Shift JIS（0.9％）

Windows-1252（0.8％）

GB2312（0.7％）

EUC-KR（0.4％）

EUC-JP（0.3％）

GBK（0.3％）

ISO-8859-2（0.2％）

Windows-1250（0.2％）

ISO-8859-15（0.1％）

Windows-1256（0.1％）

ISO-8859-9（0.1％）

Big5（0.1％）

Windows-1254（0.1％）

Windows-874（0.1％）

答案 1 :(得分：2)

HTML5草稿包含default encodings for languages表，反映了被视为常见的内容。但请注意，它应该基于用户区域设置，即浏览器或操作系统的语言，而不是文档的语言 - 显然是因为后者通常是未知的，至少在您实际阅读文档之前，基于对编码的一些假设。

我认为你可以在一个流行的网络浏览器中复制编码列表。如果它在那里运行良好，它可能在您的应用程序中运行得相当好。浏览器对列表及其顺序做了一些聪明的事情，但在实践中，我认为只需要一个简短的列表就足够了，比如utf-8，utf-16，windows-1252，也许还有其他几个，然后选择获得完整列表。请注意，尽管utf-16几乎未使用且对网页无用，但对于纯文本文件来说，这种情况很常见。重要的是要很好地命名编码，最好使用通用的英语（或其他语言）名称以及括号中的IANA“charset”名称 - 就像浏览器一样。

答案 2 :(得分：1)

我会推荐像浏览器使用的菜单结构。例如Firefox：View - ＆gt;字符编码 - ＆gt;更多编码 - ＆gt;东亚 - ＆gt;中国/日文/韩文。（好吧，如果你只是看起来更容易）。和视图 - ＆gt;编码 - ＆gt;在IE中更多。

可能看起来太深笨，但它非常熟悉。并且不会删除有用的编码（例如，为什么KOI8-R用于俄语？如果我使用Windows 1251并且不在列表中会发生什么？）