我是一个Python新手。我对Python 2.x中的旧urllib和urllib2与Python 3中的新urllib之间的差异感到有些困惑,除此之外,我还不确定数据是否需要在发送到urlopen之前进行编码。 / p>
我一直在尝试使用POST获取网址的html主体,以便我可以发送参数。该网页显示一个国家在特定日期的特定小时内的阳光数据。我试过没有编码/解码,打印输出是一个字节串,开头是b。我接下来尝试的代码是
import urllib.request, urllib.parse, urllib.error
def scrape(someurl):
try:
values = {'LANG': 'en',
'DATE' : '1303160400',
'CONT' : 'euro',
'LAND' : 'UK',
'KEY' : 'UK',
'SORT': '2',
'INT' : '06',
'TYPE' : 'sonnestd',
'ART' : 'karte',
'RUBRIK' : 'akt',
'R': '310',
'CEL': 'C'}
data = urllib.parse.urlencode(values)
data = data.encode("utf-8")
response = urllib.request.urlopen(someurl, data)
html = response.read().decode("utf-8")
print(html)
except urllib.error.HTTPError as e:
print(e.code)
print(e.read())
myscrape = scrape("http://www.weatheronline.co.uk/weather/maps/current")
错误是
Traceback (most recent call last):
File "/Users/Me/Desktop/weather.py", line 57, in <module>
myscrape = scrape("http://www.weatheronline.co.uk/weather/maps/current")
File "/Users/Me/Desktop/weather.py", line 37, in scrape
html = response.read().decode("utf-8")
UnicodeDecodeError: 'utf8' codec can't decode byte 0x80 in position 10: invalid start byte
没有编码/解码我总是得到一个可疑的短字节字符串,所以我想知道请求是否以其他方式失败
b'GIF89a\x01\x00\x01\x00\x80\x00\x00\x00\x00\x00\x00\x00\x00!\xf9\x04\x01\x00\x00\x00\x00,\x00\x00\x00\x00\x01\x00\x01\x00\x00\x02\x02D\x01\x00;'
答案 0 :(得分:2)
GIF89a
表示服务器正在向您发送图像。
另外,你不应该用UTF-8进行暴力解码;您应该查看响应标头以确定要使用的编码。