根据http://en.wikipedia.org/wiki/UTF-8。
11011111 11111111
是非法的utf-8字节序列。
如何解析?
和
vim
,iconv
,java
如何处理非法的utf-8字节序列?
答案 0 :(得分:0)
UTF-8是转换格式,用于派生通用字符集(UCS)的子集。这些字符的转换和解码由定义为Internet标准的规则控制。
在RFC3629的第3部分中,它明确指出:
上面的解码算法的实现必须防止 解码无效序列。
它没有关于如何处理这些无效序列的具体说明,而是防范"它取决于实施的性质和实施者将采取的具体行动。