什么是“高ascii”字符的正确技术术语?

时间:2009-10-02 17:12:07

标签: character-encoding terminology ascii character extended-ascii

引用“高ascii”或“扩展ascii”字符的技术上正确的方法是什么?我不只是指128-255的范围,而是0-127范围之外的任何字符。

通常它们被称为变音符号,重音字母,有时随便称为“国家”或非英语字符,但这些名称要么不精确,要么只涵盖可能字符的一部分。

程序员能够立即识别的正确,准确的术语是什么?在与非技术受众交谈时,最好的英语术语是什么?

8 个答案:

答案 0 :(得分:17)

“非ASCII字符”

答案 1 :(得分:2)

未定义127以上的ASCII字符代码。许多不同的设备和软件供应商为128-255开发了自己的字符集。有些选择了绘图符号,选择了重音字符,其他选择了其他字符。

Unicode是尝试制作一组​​通用的字符代码,其中包含大多数语言中使用的字符。这不仅包括传统的西方字母,还包括西里尔文,阿拉伯文,希腊文,甚至包括中文,日文和韩文的大量字符,以及现代和古代的许多其他语言。

Unicode有多种实现方式。如果UTF-8最受欢迎之一。这种普及的一个主要原因是它向后兼容ASCII,字符代码0到127对于ASCII和UTF-8都是相同的。

这意味着最好说ASCII是UTF-8的子集。字符代码128及以上不是ASCII。它们可以是UTF-8(或其他Unicode),也可以是硬件或软件供应商的自定义实现。

答案 2 :(得分:0)

“扩展ASCII”是我使用的术语,意思是“超出原始0-127的字符”。

Unicode是一组可能的扩展ASCII字符,并且相当大。

UTF-8是表示与原始ASCII向后兼容的Unicode字符的方式。

答案 3 :(得分:0)

您可以使用“trans-ASCII”,“supra-ASCII”,“ultra-ASCII”等术语。实际上,“meta-ASCII”会更好,因为它暗示了元位。

答案 4 :(得分:0)

如果您说“High ASCII”,则定义为128-255十进制范围。 ASCII本身被定义为一个字节(实际上是7位)字符表示;使用高位来允许后来发生的非英语字符,并产生代码页,它定义了由特定值表示的特定字符。任何多字节(> 255十进制值)都不是ASCII。

答案 5 :(得分:0)

不代表ASCII字符的位序列最终不是Unicode字符。

根据您使用的字符编码,可能是:

  • 无效的位序列
  • Unicode字符
  • ISO-8859-x字符
  • Microsoft 1252字符
  • 其他字符编码中的字符
  • 错误,二进制数据等

适合所有这些情况的一个定义是:

  • 不是ASCII字符

要高度迂腐,即使是“非ASCII字符”也不能完全适合所有这些情况,因为有时这个范围之外的位序列可能只是一个无效的位序列,而不是一个字符。 / p>

答案 6 :(得分:0)

从在线资源(Cool website though)中获取单词,因为我发现它有用且适合写作和回答。

首先只包括大写字母和数字,但在1967年增加了小写字母和一些控制字符,形成了所谓的US-ASCII,即字符0到127。 因此,这套仅有128个字符于1967年作为标准出版,包含您用英语撰写的所有内容。

1981年,IBM开发了8位ASCII代码的扩展,名为"代码页437",在此版本中替换了一些过时的图形字符控制字符。此外,还添加了128个字符,包括新符号,符号,图形和拉丁字母,所有标点符号以及用其他语言(如西班牙语)编写文本所需的字符。 以这种方式添加了从128到255的ASCII字符。

IBM在其5150型硬件中包含对此代码页的支持,称为" IBM-PC",被认为是第一台个人计算机。 这个模型的操作系统," MS-DOS"也使用了这个扩展的ASCII码。

答案 7 :(得分:-1)

非ASCII Unicode字符。