Question

我有：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
from urllib2 import urlopen

page2 = urlopen('http://pogoda.yandex.ru/moscow/').read().decode('utf-8')

page = urlopen('http://yasko.by/').read().decode('utf-8')

并在行“页面...”我有错误“UnicodeDecodeError：'utf8'编解码器无法解码位置32中的字节0xc3：无效的连续字节”，但在行“page2 ...”错误不是，为什么？

从yasko.by的32位开始西里尔符号，我是如何正确地得到它的？

谢谢！

Answer 1

http://yasko.by/的内容使用windows-1251进行编码，而http://pogoda.yandex.ru/moscow/的内容则使用utf-8进行编码。

page = ..行应该成为：

page = urlopen('http://yasko.by/').read().decode('windows-1251')

Python 2.7，解码问题（'utf-8'）

1 个答案: