标签: c++ c unicode file-format
我正在设计一种简单的文件格式,而不是只支持扩展的US ASCII,我在考虑支持UTF8。
换行字节(十六进制0x0A)是分隔符之一。这个字节序列是否可以嵌入多字节UTF8序列中?例如,其中一个初始字节的高位设置(表示多字节字符),其中一个尾随字节是0x0A?
答案 0 :(得分:4)
请查看UTF-8规范。值< = 0x7F的所有字节都被视为该代码点;多字节序列中的所有字节都设置了高位。