应用错误收集

\ r \ n作为UTF8角色的一部分？

时间：2012-02-10 11:06:28

标签： language-agnostic unicode character-encoding

是否有可能，某些UTF8符号包含字节0x0D 0x0A，因为它的一部分？如果是，那么这些符号是什么？（我正在尝试解决的任务是从特定点读取文本UTF8文件，而不是从一开始就读取）

3 个答案:

答案 0 :(得分：5)

不，多字节编码的代码点的每个字节始终具有最高有效位。

UTF-8流中值为0-127的字节唯一映射到ASCII。

答案 1 :(得分：1)

不是，0-127 ASCII范围内的每个字符都以UTF-8文本“按原样”表示。多字节字符的每个字节都有8位设置。它是UTF-8的adventages之一。

答案 2 :(得分：1)

单个Unicode代码点U + 0D0A将表示为UTF-8中的三个字节0xE0 0xB4 0x8A。两个Unicode代码点U + 000D U + 000A将在UTF-8中表示为两个字节0x0D 0x0A。