python3.5中字符串的长度与不同的编码

时间:2017-08-09 00:53:05

标签: python unicode utf-8 utf-16 byte-order-mark

我在python中尝试过以字节为单位获取字符串的长度。

JPanel

utf-8使用一个字节来存储ascii字符,正如预期的那样,但为什么utf-16使用4个字节?什么是len()准确测量?

3 个答案:

答案 0 :(得分:2)

UTF-16是一种可变长度编码;代码点用一个或两个16位代码单元编码(即2或4个字节,'a'是2个字节)。

UTF-32是固定宽度,每个代码点正好是32位(即4个字节)。

你看到的长度似乎有些膨胀,因为当你像这样使用len时,你包括BOM(\ xff \ xfe是物料清单)。

>>> 'a'.encode('utf-16')
b'\xff\xfea\x00'
  BOM.....a....
>>> 'aaa'.encode('utf-16')
b'\xff\xfea\x00a\x00a\x00'
  BOM.....a....a....a....

如果使用bitstring模块查看原始位,可能会更清楚:

>>> # pip install bitstring
>>> from bitstring import Bits
>>> Bits(bytes='a'.encode('utf-32')).bin
'1111111111111110000000000000000001100001000000000000000000000000'
>>> Bits(bytes='aaa'.encode('utf-32')).bin
'11111111111111100000000000000000011000010000000000000000000000000110000100000000000000000000000001100001000000000000000000000000'
 BOM.............................a...............................a...............................a...............................

UTF-8再次是可变宽度,使用1-4个8位块,并匹配前128个字符的ASCII,其中包括“a”。 unicode标准允许使用UTF-8的BOM,但既不需要也不建议使用它(它没有意义),这就是你在第一个例子中看不到任何BOM的原因。

答案 1 :(得分:0)

您的长度看起来很奇怪的原因是UTF-16和UTF-32编码在编码期间在字符串的开头附加byte order mark。这就是为什么琴弦的长度看起来是你所期望的两倍。他们使用两个代码点。字节顺序标记告诉你一些事情(字节顺序和编码是主要的)。因此,len基本上正如您所期望的那样运行(它正在测量编码表示中使用的字节数)。

答案 2 :(得分:0)

len()返回对象的长度(项目数)。当你对字符串s.encode('utf-16')进行编码时,python会返回带有字节顺序标记的字符串的编码版本。这相当于字符串的长度。为了说明我的观点

for i in range(0, len(s.encode('utf-16'))):
  print(s.encode('utf-16')[:i]) 

结果:

b''  #this is the byte order mark
b'\xff'
b'\xff\xfe'
b'\xff\xfea'