检查无效的UTF8

时间:2011-07-02 03:56:39

标签: c++ utf-8

我正在从十六进制转换为UTF8格式到实际值。但是,我需要捕获一些无效的字节序列。有没有快速的方法来检查一个字符是否属于C ++中的UTF8?

3 个答案:

答案 0 :(得分:14)

遵循Unicode标准第3章中的表格。(我使用了本章的Unicode 5.1.0版本(p103);它是Unicode 6.0.0版本的p94上的表3-7,并且在Unicode 6.3版本的p95上 - 它位于Unicode 8.0.0版本的p125上。)

字节0xC0,0xC1和0xF5..0xFF无法出现在有效的UTF-8中。 记录有效序列;所有其他都无效。

表3-7。形成良好的UTF-8字节序列

Code Points        First Byte Second Byte Third Byte Fourth Byte
U+0000..U+007F     00..7F
U+0080..U+07FF     C2..DF     80..BF
U+0800..U+0FFF     E0         A0..BF      80..BF
U+1000..U+CFFF     E1..EC     80..BF      80..BF
U+D000..U+D7FF     ED         80..9F      80..BF
U+E000..U+FFFF     EE..EF     80..BF      80..BF
U+10000..U+3FFFF   F0         90..BF      80..BF     80..BF
U+40000..U+FFFFF   F1..F3     80..BF      80..BF     80..BF
U+100000..U+10FFFF F4         80..8F      80..BF     80..BF

请注意,对于第一个字节的某些值范围,不规则性位于第二个字节中。需要时,第三个和第四个字节是一致的。请注意,并非所有已标识为有效的范围内的代码点都已分配(有些明确是“非字符”),因此仍需要更多验证。

代码点U + D800..U + DBFF用于UTF-16高代理,U + DC00..U + DFFF用于UTF-16低代理;那些不能出现在有效的UTF-8中(您将编码BMP外部的值 - 基本多语言平面 - 直接用UTF-8编码),这就是为什么该范围被标记为无效。

其他排除范围(初始字节C0或C1,或初始字节E0后跟80..9F,或初始字节F0后跟80..8F)是非最小编码。例如,C0 80将编码U + 0000,但是其由00编码,并且UTF-8定义非最小编码C0 80无效。最大的Unicode代码点是U + 10FFFF;从F4 90向上开始的UTF-8编码会生成超出范围的值。

答案 1 :(得分:6)

已经有了很好的答案,我只是为了好玩而在另一个角色中掏钱。

UTF-8使用Prosser和Thompson的一般方案来编码单字节序列中的大数字。这个方案实际上可以代表2 ^ 36个值,但对于Unicode,我们只需要2 ^ 21个。这是它的工作原理。设N是要编码的数字(例如Unicode代码点):

  • 如果N < 128,只有一个字节0nnnnnnn。最高位为零。
  • 否则,几个字节。第一个字节的开头数与序列中的字节数一样多,然后是零,然后是数据位;连续字节以10开头,后跟六个数据位。示例:
  • 3字节序列:1110xxxx 10xxxxxx 10xxxxxx
  • 5字节序列:111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
  • 7字节序列:11111110 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

k 字节序列适合5 k + 1位(当 k > 1时),因此您可以确定多少字节你需要给N.对于解码,读一个字节;如果其顶部位为零,则按原样存储其值,否则使用第一个字节计算序列中的字节数并处理所有这些字节。

对于今天的Unicode,我们最多只需要 k = 4个字节。

答案 2 :(得分:0)

public static bool IsValidUtf8(byte[] bytes, int length)
{
    // https://en.wikipedia.org/wiki/UTF-8#Codepage_layout
    // http://www.w3.org/International/questions/qa-forms-utf-8
    // https://social.msdn.microsoft.com/Forums/vstudio/en-US/df18cca9-5e54-410e-a5c5-74efc7b52e29
    // http://gallery.technet.microsoft.com/scriptcenter/ConvertTo-String-d79aed45

    Encoding enc = Encoding.GetEncoding("iso-8859-1");
    string binaryText = enc.GetString(bytes, 0, length);
    Regex rx = new Regex(@"\A(
          [\x09\x0A\x0D\x20-\x7E]            # ASCII
        | [\xC2-\xDF][\x80-\xBF]             # non-overlong 2-byte
        |  \xE0[\xA0-\xBF][\x80-\xBF]        # excluding overlongs
        | [\xE1-\xEC\xEE\xEF][\x80-\xBF]{2}  # straight 3-byte
        |  \xED[\x80-\x9F][\x80-\xBF]        # excluding surrogates
        |  \xF0[\x90-\xBF][\x80-\xBF]{2}     # planes 1-3
        | [\xF1-\xF3][\x80-\xBF]{3}          # planes 4-15
        |  \xF4[\x80-\x8F][\x80-\xBF]{2}     # plane 16
        )*\z", RegexOptions.IgnorePatternWhitespace | RegexOptions.Singleline);

    return rx.IsMatch(binaryText);
}

注意

为了能够将正则表达式与二进制数据(字节)匹配,请先使用“ iso-8859-1 ”将二进制数据转换为Unicode字符串(所有.net字符串均为Unicode)。编码。它是唯一具有前256个Unicode代码点一对一映射的单字节编码。其他编码不会转换为文本后保留所有二进制字节。

static void Main(string[] args)
{
    string filename = "myfile.txt";
    byte[] bytes = File.ReadAllBytes(filename);

    if (IsValidUtf8(bytes, bytes.Length))
    {
        Console.WriteLine("encoding: utf-8");
    }        
    else
    {
        Console.WriteLine("unknown encoding.");
    }
}