有人可以确认所有汉字中的汉字字符都是3字节长的UTF-8吗?
答案 0 :(得分:27)
常用的汉字/汉字字符位于U + 4E00和U + 9FFF之间的“CJK统一表意文字”块中,并采用UTF-8中的3个字节。 (日语平假名和片假名字符也需要3个字节。)
但是,“CJK统一表意文字扩展B”和“CJK兼容表意文字补充”块中也有一些很少使用的字符,这些字符占用UTF-8中的4个字节。
另请注意,中文文本通常包含数字0-9等ASCII字符。
答案 1 :(得分:2)
是的,汉字是U + 4e00到U + 9faf,UTF8 3个字节是U + 0800到U + FFFF。