我正在从十六进制转换为UTF8格式到实际值。但是,我需要捕获一些无效的字节序列。有没有快速的方法来检查一个字符是否属于C ++中的UTF8?
答案 0 :(得分:14)
遵循Unicode标准第3章中的表格。(我使用了本章的Unicode 5.1.0版本(p103);它是Unicode 6.0.0版本的p94上的表3-7,并且在Unicode 6.3版本的p95上 - 它位于Unicode 8.0.0版本的p125上。)
字节0xC0,0xC1和0xF5..0xFF无法出现在有效的UTF-8中。 记录有效序列;所有其他都无效。
Code Points First Byte Second Byte Third Byte Fourth Byte
U+0000..U+007F 00..7F
U+0080..U+07FF C2..DF 80..BF
U+0800..U+0FFF E0 A0..BF 80..BF
U+1000..U+CFFF E1..EC 80..BF 80..BF
U+D000..U+D7FF ED 80..9F 80..BF
U+E000..U+FFFF EE..EF 80..BF 80..BF
U+10000..U+3FFFF F0 90..BF 80..BF 80..BF
U+40000..U+FFFFF F1..F3 80..BF 80..BF 80..BF
U+100000..U+10FFFF F4 80..8F 80..BF 80..BF
请注意,对于第一个字节的某些值范围,不规则性位于第二个字节中。需要时,第三个和第四个字节是一致的。请注意,并非所有已标识为有效的范围内的代码点都已分配(有些明确是“非字符”),因此仍需要更多验证。
代码点U + D800..U + DBFF用于UTF-16高代理,U + DC00..U + DFFF用于UTF-16低代理;那些不能出现在有效的UTF-8中(您将编码BMP外部的值 - 基本多语言平面 - 直接用UTF-8编码),这就是为什么该范围被标记为无效。
其他排除范围(初始字节C0或C1,或初始字节E0后跟80..9F,或初始字节F0后跟80..8F)是非最小编码。例如,C0 80将编码U + 0000,但是其由00编码,并且UTF-8定义非最小编码C0 80无效。最大的Unicode代码点是U + 10FFFF;从F4 90向上开始的UTF-8编码会生成超出范围的值。
答案 1 :(得分:6)
已经有了很好的答案,我只是为了好玩而在另一个角色中掏钱。
UTF-8使用Prosser和Thompson的一般方案来编码单字节序列中的大数字。这个方案实际上可以代表2 ^ 36个值,但对于Unicode,我们只需要2 ^ 21个。这是它的工作原理。设N是要编码的数字(例如Unicode代码点):
0nnnnnnn
。最高位为零。10
开头,后跟六个数据位。示例:1110xxxx 10xxxxxx 10xxxxxx
。111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
。11111110 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
。k 字节序列适合5 k + 1位(当 k > 1时),因此您可以确定多少字节你需要给N.对于解码,读一个字节;如果其顶部位为零,则按原样存储其值,否则使用第一个字节计算序列中的字节数并处理所有这些字节。
对于今天的Unicode,我们最多只需要 k = 4个字节。
答案 2 :(得分:0)
public static bool IsValidUtf8(byte[] bytes, int length)
{
// https://en.wikipedia.org/wiki/UTF-8#Codepage_layout
// http://www.w3.org/International/questions/qa-forms-utf-8
// https://social.msdn.microsoft.com/Forums/vstudio/en-US/df18cca9-5e54-410e-a5c5-74efc7b52e29
// http://gallery.technet.microsoft.com/scriptcenter/ConvertTo-String-d79aed45
Encoding enc = Encoding.GetEncoding("iso-8859-1");
string binaryText = enc.GetString(bytes, 0, length);
Regex rx = new Regex(@"\A(
[\x09\x0A\x0D\x20-\x7E] # ASCII
| [\xC2-\xDF][\x80-\xBF] # non-overlong 2-byte
| \xE0[\xA0-\xBF][\x80-\xBF] # excluding overlongs
| [\xE1-\xEC\xEE\xEF][\x80-\xBF]{2} # straight 3-byte
| \xED[\x80-\x9F][\x80-\xBF] # excluding surrogates
| \xF0[\x90-\xBF][\x80-\xBF]{2} # planes 1-3
| [\xF1-\xF3][\x80-\xBF]{3} # planes 4-15
| \xF4[\x80-\x8F][\x80-\xBF]{2} # plane 16
)*\z", RegexOptions.IgnorePatternWhitespace | RegexOptions.Singleline);
return rx.IsMatch(binaryText);
}
注意:
为了能够将正则表达式与二进制数据(字节)匹配,请先使用“ iso-8859-1 ”将二进制数据转换为Unicode字符串(所有.net字符串均为Unicode)。编码。它是唯一具有前256个Unicode代码点一对一映射的单字节编码。其他编码不会转换为文本后保留所有二进制字节。
static void Main(string[] args)
{
string filename = "myfile.txt";
byte[] bytes = File.ReadAllBytes(filename);
if (IsValidUtf8(bytes, bytes.Length))
{
Console.WriteLine("encoding: utf-8");
}
else
{
Console.WriteLine("unknown encoding.");
}
}