如何解码不完整的UTF-8编码的字节字符串

时间:2019-03-18 12:52:49

标签: python-3.x utf-8 character-encoding

我有一个UTF-8编码的字节字符串。末尾的某些字节丢失。当我尝试decode()时,出现“意外的数据结尾”错误。一个玩具示例:

>>> a = "\u2e90\u2e91\u2e92".encode("utf-8")
>>> len(a)
9
>>> a[0:8].decode("utf-8")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 6-7: unexpected end of data

解码除最后一个(断点)代码点以外的所有代码点的最优雅方法是什么?

0 个答案:

没有答案