如何解析非法的utf-8字节序列?

时间:2014-06-06 08:25:28

标签: utf-8

根据http://en.wikipedia.org/wiki/UTF-8

11011111 11111111

是非法的utf-8字节序列。

如何解析?

vimiconvjava如何处理非法的utf-8字节序列?

1 个答案:

答案 0 :(得分:0)

UTF-8是转换格式,用于派生通用字符集(UCS)的子集。这些字符的转换和解码由定义为Internet标准的规则控制。

RFC3629的第3部分中,它明确指出:

  

上面的解码算法的实现必须防止   解码无效序列。

它没有关于如何处理这些无效序列的具体说明,而是防范"它取决于实施的性质和实施者将采取的具体行动。