是iso-8859对拉丁字符的支持我需要在java程序中使用iso-8859-1来读取中文文件,这有什么区别
答案 0 :(得分:10)
ISO-8859是8位字符编码的标准。 8位为您提供256种组合,对于拉丁字母的大多数扩展都是可以的,但对于中文字符则不行。
ISO-8859-1是ISO-8859的“版本”之一,支持大多数西欧语言(法语,德语,西班牙语......)。对于中欧语言(波兰语,捷克语,斯洛伐克语......),您需要ISO-8859-2等
ISO-8859-1和ISO-8859-2之间的不同点之一是ISO-8859-1中的法语字母è
,它与捷克语/斯洛伐克语č
处于同一位置{{ ISO-8859-2中的1}}。这就是为什么你不能将这两个字母组合在一个文本中。
现在使用Unicode,也可以组合中文字符。
答案 1 :(得分:0)
中文有几种编码(例如简体和繁体)。看到
http://download.oracle.com/javase/6/docs/technotes/guides/intl/encoding.doc.html列表。
对于简体中文,最常见的是GB2312
又名EUC_CN
,对于繁体中文,最常见的是Big5
。我还看到了UTF-8
中代表的中文文档。