用Python解码Cyrillic - 字符映射到<undefined>

时间:2015-09-11 11:57:23

标签: python unicode encoding cyrillic cp1251

我收到服务器响应,字节:

  

\ xd0 \ xa0 \ xd1 \ x83 \ xd0 \ xb1 \ xd0 \ xbb \ xd0 \ xb8 \ xd0 \ xa0 \ xd0 \ xa4   \ XD0 \ x9a \ XD0 \ xa6 \ XD0 \ X91

这肯定是西里尔语,但我不确定是哪种编码。每次尝试在Python中解码它都会失败:

b = b'\xd0\xa0\xd1\x83\xd0\xb1\xd0\xbb\xd0\xb8 \xd0\xa0\xd0\xa4 \xd0\x9a\xd0\xa6\xd0\x91'
>>> b.decode('utf-8')
'\u0420\u0443\u0431\u043b\u0438 \u0420\u0424 \u041a\u0426\u0411'
>>> print(b.decode('utf-8'))
UnicodeEncodeError: 'charmap' codec can't encode characters in position 0-4:
character maps to <undefined>

>>> b.decode('cp1251')
'\u0420\xa0\u0421\u0453\u0420±\u0420»\u0420\u0451 \u0420\xa0\u0420¤
\u0420\u0459\u0420¦\u0420\u2018'
>>> print(b.decode('cp1251'))
UnicodeEncodeError: 'charmap' codec can't encode character '\u0420' in
position 0: character maps to <undefined>

两种结果都有点类似于Unicode-escape,但这也不起作用:

>>> codecs.decode('\u0420\u0443\u0431\u043b\u0438 \u0420\u0424 \u041a\u0426\u0411',
'unicode-escape')
'Ð\xa0Ñ\x83бли Ð\xa0Ф Ð\x9aЦÐ\x91'

web service用于恢复西里尔文本,它可以使用Windows-1251解码我的字节:

  

输出(源编码:WINDOWS-1251)

     

РублиРФКЦБ

但我对如何处理它没有更多的想法。

我想我错过了编码如何工作的一些内容,所以如果问题对你来说似乎微不足道,我会非常感谢一些解释/链接到教程/一些关键字进一步谷歌搜索。

解决方案:

Windows PowerShell默认使用Windows-850代码页,无法处理某些西里尔字符。一个解决方法是每次启动shell时将代码页更改为Unicode:

chcp 65001

Here解释了如何使其成为新的默认

2 个答案:

答案 0 :(得分:1)

试试这个。

 In [1]: s = "\xd0\xa0\xd1\x83\xd0\xb1\xd0\xbb\xd0\xb8 \xd0\xa0\xd0\xa4 \xd0\x9a\xd0\xa6\xd0\x91"

 In [11]: print s.decode('utf-8')
    Рубли РФ КЦБ

要正确打印或显示某些字符串,需要对它们进行解码(Unicode字符串)。

很多信息都包含标准Python library

中的示例

Python 3:

>>> import sys
>>> print (sys.version)
3.4.0 (default, Jun 19 2015, 14:20:21) 
[GCC 4.8.2]
>>> b = b'\xd0\xa0\xd1\x83\xd0\xb1\xd0\xbb\xd0\xb8 \xd0\xa0\xd0\xa4 \xd0\x9a\xd0\xa6\xd0\x91'
>>> b.decode('utf-8')
'Рубли РФ КЦБ'

答案 1 :(得分:1)

  

这肯定是西里尔语,但我不确定是哪种编码。

这是UTF-8(100%)。

Python 3.4.3 (default, Mar 25 2015, 17:13:50) 
Type "copyright", "credits" or "license" for more information.

IPython 4.0.0 -- An enhanced Interactive Python.
?         -> Introduction and overview of IPython's features.
%quickref -> Quick reference.
help      -> Python's own help system.
object?   -> Details about 'object', use 'object??' for extra details.

In [1]: b = b'\xd0\xa0\xd1\x83\xd0\xb1\xd0\xbb\xd0\xb8 \xd0\xa0\xd0\xa4 \xd0\x9a\xd0\xa6\xd0\x91'

In [2]: s = b.decode('utf-8')

In [3]: print(s)
Рубли РФ КЦБ

对我来说很好。您的终端或repl可能有问题吗?