UTF-8可以编码多少个字符？

时间：2012-04-19 13:29:46

标签： utf-8 character-encoding ascii

如果UTF-8是8位，是否意味着最多只能有256个不同的字符？

前128个代码点与ASCII相同。但它说UTF-8可以支持多达百万个字符？

这是如何运作的？

10 个答案:

答案 0 :(得分：109)

UTF-8不会一直使用一个字节，它是1到4个字节。

前128个字符（US-ASCII）需要一个字节。

接下来的1,920个字符需要两个字节进行编码。这涵盖了几乎所有拉丁字母的其余部分，以及希腊语，西里尔语，科普特语，亚美尼亚语，希伯来语，阿拉伯语，叙利亚语和Tāna字母表，以及组合变音符号。

基本多语言平面的其余部分中的字符需要三个字节，其中几乎包含所有常用字符[12]，包括大多数中文，日文和韩文[CJK]字符。

Unicode的其他平面中的字符需要四个字节，其中包括不太常见的CJK字符，各种历史脚本，数学符号和表情符号（象形符号）。

来源：Wikipedia

答案 1 :(得分：34)

UTF-8每个字符使用1-4个字节：ascii字符为一个字节（前128个unicode值与ascii相同）。但这只需要7位。如果设置了最高（“符号”）位，则表示多字节序列的开始;连续高位设置的数量表示字节数，然后是0，其余位表示该值。对于其他字节，最高的两位将为1和0，其余6位用于该值。

因此，一个四字节序列将以11110 ...（和...... =该值的三个位）开始，然后是三个字节，每个值为6位，产生一个21位值。 2 ^ 21超过了unicode字符的数量，因此所有的unicode都可以用UTF8表示。

答案 2 :(得分：22)

根据this table * UTF-8 应该支持：

2 ³¹ = 2,147,483,648个字符

然而，RFC 3629限制了可能的值，所以现在我们capped at 4 bytes，这给了我们

2 ²¹ = 2,097,152个字符

请注意，这些字符的很大一部分是＆＃34;保留＆＃34;用于自定义使用，这对于图标字体来说实际上非常方便。

*使用的维基百科显示了一个包含6个字节的表 - 他们自更新文章以来已经过了。

2017-07-11：更正了对使用多个字节编码的相同代码点进行重复计算

答案 3 :(得分：12)

2,164,864个“字符”可能由UTF-8编码。

这个数字是2 ^ 7 + 2 ^ 11 + 2 ^ 16 + 2 ^ 21，它来自编码的工作方式：

1字节字符有7位用于编码 0xxxxxxx（0x00-0x7F）
2字节字符有11位用于编码 110xxxxx 10xxxxxx（第一个字节为0xC0-0xDF;第二个字节为0x80-0xBF）
3字节字符有16位用于编码 1110xxxx 10xxxxxx 10xxxxxx（第一个字节为0xE0-0xEF;连续字节为0x80-0xBF）
4字节字符有21位用于编码 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx（第一个字节为0xF0-0xF7;连续字节为0x80-0xBF）

正如您所看到的，它明显大于当前的Unicode（1,112,064个字符）。

答案 4 :(得分：11)

Unicode与UTF-8

Unicode将代码点解析为字符。 UTF-8是Unicode的存储机制。 Unicode有一个规范。 UTF-8有一个规格。它们都有不同的限制。 UTF-8具有不同的向上界限。

的Unicode

Unicode用"planes."指定。每个平面带有2个¹⁶代码点。 Unicode中有17个Planes。总共17 * 2^16个代码点。 first plane, plane 0 or the BMP，特别在于它的重量。

不要解释所有的细微差别，让我在飞机上引用上面的文章。

17架飞机可以容纳1,114,112个码点。其中，2,048个是代理人，66个是非人物，137,468个是私人使用，留下974,530个公共任务。

UTF-8

现在让我们回到上面链接的文章，

UTF-8使用的编码方案设计有2个³¹代码点（32,768个平面）的更大限制，并且可以编码2个²¹代码点（ 32个平面）即使限制为4个字节。[3]由于Unicode将代码点限制为可由UTF-16编码的17个平面，因此UTF-8和UTF-32中高于0x10FFFF的代码点无效。

所以你可以看到你可以将东西放入UTF-8，这是无效的Unicode。为什么？因为UTF-8适用于Unicode甚至不支持的代码点。

UTF-8，即使有四个字节的限制，也支持2个²¹代码点，远远超过17 * 2^16

答案 5 :(得分：6)

UTF-8是可变长度编码，每个字符的最小为8位。
代码点较高的字符最多需要32位。

答案 6 :(得分：3)

来自维基百科的引用：“UTF-8使用一到四个8位字节（在Unicode标准中称为”八位字节“）对Unicode字符集中的1,112,064个代码点中的每一个进行编码。”

一些链接：

答案 7 :(得分：2)

查看Unicode标准及相关信息，例如FAQ条目UTF-8 UTF-16, UTF-32 & BOM。这不是一帆风顺，但它是权威的信息，而你在其他地方读到的关于UTF-8的大部分内容都值得怀疑。

“UTF-8”中的“8”与位的代码单位的长度有关。代码单元是用于对字符进行编码的实体，不一定是简单的一对一映射。 UTF-8使用可变数量的代码单元来编码字符。

可以用UTF-8编码的字符集与UTF-16或UTF-32完全相同，即所有Unicode字符。它们都编码整个Unicode编码空间，甚至包括非字符和未分配的代码点。

答案 8 :(得分：1)

虽然我同意mpen当前最大的UTF-8代码（2,164,864）（下面列出，我无法对他发表评论），如果你删除了UTF-8的2个主要限制，他将减少2个等级：只有4个字节的限制，代码254和255不能使用（他只删除了4个字节的限制）。

启动代码254遵循起始位的基本排列（多位标志设置为1，计数为6 1，端子0，无备用位），为您提供6个额外字节（6个10xxxxxx组，一个额外的2 ^ 36个代码）。

启动代码255并不完全遵循基本设置，没有终端0但是使用了所有位，为您提供了7个额外字节（多位标志设置为1，计数为7 1，没有终端0，因为所有使用了比特; 7个10xxxxxx组，另外2 ^ 42个代码。）

添加这些将给出最终的最大可呈现字符集4,468,982,745,216。这不仅是当前使用的所有字符，旧语言或死语言，以及任何相信丢失的语言。天使或天体剧本？

除了254和255：128-191之外，还有一些单字节代码在UTF-8标准中被忽略/忽略，还有一些其他代码。一些在键盘本地使用，示例代码128通常是删除退格。由于一个或多个原因（https://en.wikipedia.org/wiki/UTF-8#Invalid_byte_sequences），其他起始代码（和相关范围）无效。

答案 9 :(得分：1)

Unicode与UTF-8牢固地结合在一起。 Unicode特别支持2 ^ 21个代码点（2,097,152个字符），这与UTF-8支持的代码点数完全相同。两种系统都为代码点等保留了相同的“死区”空间和受限区域。...as of June 2018 the most recent version, Unicode 11.0, contains a repertoire of 137,439 characters

根据unicode标准。 Unicode FAQ

Unicode标准对U + 0000..U + 10FFFF范围内的字符进行编码，总计21位代码空间。

来自UTF-8维基百科页面。 UTF-8 Description

由于Unicode代码空间限制为21位值 2003年，定义了UTF-8以将代码点编码为一到四个字节，...