\ r \ n作为UTF8角色的一部分?

时间:2012-02-10 11:06:28

标签: language-agnostic unicode character-encoding

是否有可能,某些UTF8符号包含字节0x0D 0x0A,因为它的一部分?如果是,那么这些符号是什么? (我正在尝试解决的任务是从特定点读取文本UTF8文件,而不是从一开始就读取)

3 个答案:

答案 0 :(得分:5)

不,多字节编码的代码点的每个字节始终具有最高有效位。

UTF-8流中值为0-127的字节唯一映射到ASCII。

答案 1 :(得分:1)

不是,0-127 ASCII范围内的每个字符都以UTF-8文本“按原样”表示。多字节字符的每个字节都有8位设置。它是UTF-8的adventages之一。

答案 2 :(得分:1)

单个Unicode代码点U + 0D0A将表示为UTF-8中的三个字节0xE0 0xB4 0x8A。两个Unicode代码点U + 000D U + 000A将在UTF-8中表示为两个字节0x0D 0x0A