关于utf-8的几个问题

时间:2016-02-01 13:20:20

标签: utf-8

我对UTF-8

的问题很少
  1. 是否可以使用UTF-8编码任何Unicode?
  2. utf-8是否允许仅使用1个字节对任何ascii字符进行编码?
  3. 是否修复了UTF-8编码的长度?
  4. 我的检查答案:

    1)不,这是不可能的。可以从1,114,112个代码中编码1,112,064

    2)是的

    3)不,它可能是1,2,3或4字节

1 个答案:

答案 0 :(得分:0)

对于问题(1),你是什么意思"任何Unicode"?

你的意思是"任何有效的unicode角色"?然后是的。

你的意思是"从0x0到0x10FFFF的任何可能的字符值,包括2048个无效的unicode字符值的代理代码点?"然后没有,但只是因为有效的UTF-8解码器应该拒绝这些值。

UTF-8定义的方案完全能够单独编码这些代理值,事实上,编写UTF-8编码/解码软件只需处理那些值,就像其他任何一样。