如果我需要ASCII格式的西里尔字符,这意味着我需要一个扩展的ASCII表,对吧?我想知道cp-1251是否是ASCII的扩展,如果不是,它被认为是什么。我对搜索谷歌感到有些困惑。在某些地方,他们说这是其他扩展程序中的代码页。
此外,如果我的代码为206的cp-1251字符为O,那么相同字符的UTF-8值将为041E,对吗?
答案 0 :(得分:2)
“扩展ASCII”是一个含糊不清的术语。
US-ASCII支持128个值(第8位保留),不支持任何西里尔字符代码点。 Windows 1251的前半部分将代码点映射到相同的值范围。 UTF-8也是如此。因此,任何编码为ASCII的文档都是合法的Windows 1252,Windows 1251,UTF-8,ISO-8859-1,和其他一些编码。
当使用十六进制编辑器查看时,编码为ASCII,Windows-1251或UTF-8的<+> U + 004F(LATIN CAPITAL LETTER O)将具有相同的八位字节值(4F
)。
对于自然语言数据,大多数非Unicode编码应被视为obsolete。
答案 1 :(得分:1)
ASCII是一种标准。这是一个7位代码。 它包含的值范围为0 .. 127。 其他一切都不是ASCII。
在PC上可以处理Code Pages。您可以选择包含您感兴趣的字符的代码页。
调查可以支持ASCII的Unicode和几乎任何其他发明过的角色都可能是有益的。
答案 2 :(得分:1)
从技术上讲,ASCII是一种7位格式,不包含西里尔字符。鉴于此,人们不能真正拥有真正的ASCII格式的西里尔字符。
CP-1251是一个包含西里尔字符的8位编码。 CP-1251的前128个字符与ASCII相同,因此在这个意义上它是ASCII的扩展。但最终,CP-1251只是一种字符编码,即字符和数值之间的映射。
Unicode系列编码目前在现代国际化应用程序中具有最大的发展势头,由于其基本ASCII字符的紧凑表示,UTF-8最受欢迎。完全使用Unicode需要能够处理多字节字符,包括使用更复杂的算法来处理文本处理任务,如排序,搜索和文本比较。
不幸的是,字符编码不再像US-ASCII为王时那样简单。当然,即使那时像EBCDIC这样的竞争对手也糊里糊涂。
一些可能有用的链接: