我的python3脚本通过管道从c ++程序接收字符串。 通过Unicode代码点编码的字符串。我需要正确解码它。
例如,请考虑包含西里尔符号的字符串:'тест test'
尝试使用python3:print('тест test'.encode())
对此字符串进行编码。我们得到b'\xd1\x82\xd0\xb5\xd1\x81\xd1\x82 test'
C ++程序对此字符串进行编码,如:b'\u00D1\u0082\u00D0\u00B5\u00D1\u0081\u00D1\u0082 test'
编码字符串看起来非常相似 - python3使用\x
(2bits),c ++程序使用\u
(4bits)。
但我无法弄清楚如何将b'\u00D1\u0082\u00D0\u00B5\u00D1\u0081\u00D1\u0082 test'
转换为'тест test'
。
主要问题 - python3将b'\u00D1\u0082\u00D0\u00B5\u00D1\u0081\u00D1\u0082'
视为8个字符的字符串,但它只包含4个字符
答案 0 :(得分:3)
如果您从C ++收到的字符串在Python中是以下内容:
s = b'\u00D1\u0082\u00D0\u00B5\u00D1\u0081\u00D1\u0082 test'
然后这将解码它:
result = s.decode('unicode-escape').encode('latin1').decode('utf8')
print(result)
输出:
тест test
第一阶段将收到的字节字符串转换为Unicode字符串:
>>> s1 = s.decode('unicode-escape')
>>> s1
'Ñ\x82еÑ\x81Ñ\x82 test'
不幸的是,Unicode代码点实际上是UTF-8字节值。 latin1
编码是前256个Unicode码点的1:1映射,因此使用此编解码器进行编码会将代码点转换回字节字符串中的字节值:
>>> s2 = s1.encode('latin1')
>>> s2
b'\xd1\x82\xd0\xb5\xd1\x81\xd1\x82 test'
现在可以将字节字符串解码为正确的Unicode字符串:
>>> s3 = s2.decode('utf8')
>>> s3
'тест test'