我有:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
from urllib2 import urlopen
page2 = urlopen('http://pogoda.yandex.ru/moscow/').read().decode('utf-8')
page = urlopen('http://yasko.by/').read().decode('utf-8')
并在行“页面...”我有错误“UnicodeDecodeError:'utf8'编解码器无法解码位置32中的字节0xc3:无效的连续字节”,但在行“page2 ...”错误不是,为什么?
从yasko.by的32位开始西里尔符号,我是如何正确地得到它的?
谢谢!
答案 0 :(得分:2)
http://yasko.by/的内容使用windows-1251
进行编码,而http://pogoda.yandex.ru/moscow/的内容则使用utf-8
进行编码。
page = ..
行应该成为:
page = urlopen('http://yasko.by/').read().decode('windows-1251')