我试图了解从utf-8到其他编码的转换是如何工作的。
在这个例子中: - 我有一个用' utf-8'编码的字符串。并使用' iso-8859-16'进行解码。 只是想了解一下,在转换过程中如何添加额外的字节?
>>> r_post='Hello Günter'
>>> r_post=r_post.encode('utf-8')
>>> r_post
b'Hello G\xc3\xbcnter'
>>> r_post=r_post.decode('iso-8859-16')
>>> r_post
'Hello GĂŒnter'
答案 0 :(得分:2)
artanh(x) = 1/2 * ln ((1 + x)/(1 - x))
这是一个字节字符串,方便地突出显示用于'ü'的两个字节。在UTF-8编码中,字符'ü'由两个字节Hello G\xc3\xbcnter
表示。
读取这些字节并用ISO-8859-16编码解释它们可以得到“HelloGĂŒnter”字符。在8859-16中,字节C3 BC
代表字符'Ă',C3
代表字符'Œ'。
如果您需要更深入的解释,请参阅What Every Programmer Absolutely, Positively Needs To Know About Encodings And Character Sets To Work With Text。