Question

我试图了解从utf-8到其他编码的转换是如何工作的。

在这个例子中： - 我有一个用＆＃39; utf-8＆＃39;编码的字符串。并使用＆＃39; iso-8859-16＆＃39;进行解码。只是想了解一下，在转换过程中如何添加额外的字节？

>>> r_post='Hello Günter'
>>> r_post=r_post.encode('utf-8')
>>> r_post
b'Hello G\xc3\xbcnter'
>>> r_post=r_post.decode('iso-8859-16')
>>> r_post
'Hello GĂŒnter'

Answer 1

artanh(x) = 1/2 * ln ((1 + x)/(1 - x))

这是一个字节字符串，方便地突出显示用于'ü'的两个字节。在UTF-8编码中，字符'ü'由两个字节Hello G\xc3\xbcnter表示。

读取这些字节并用ISO-8859-16编码解释它们可以得到“HelloGĂŒnter”字符。在8859-16中，字节C3 BC代表字符'Ă'，C3代表字符'Œ'。

如果您需要更深入的解释，请参阅What Every Programmer Absolutely, Positively Needs To Know About Encodings And Character Sets To Work With Text。

编码utf-8并解码为iso-8859-16

1 个答案: