尝试从图像URL(使用python urllib)刮取图像,但获取html

时间:2015-04-03 14:05:20

标签: python web-scraping urllib scrape

我试图从以下网址获取图片。

  

http://upic.me/i/fj/the_wonderful_mist_once_again_01.jpg

我可以右键单击并保存 - 但是当我尝试使用urlretrieve时

import urllib
img_url = 'http://upic.me/i/fj/the_wonderful_mist_once_again_01.jpg'
urllib.urlretrieve( img_url, 'cover.jpg')

我发现它是html而不是.jpg图片,但我不知道为什么。 你能告诉我为什么我的方法不起作用?有没有可以模仿右键单击save-as方法的选项?

2 个答案:

答案 0 :(得分:0)

尝试这样:

import urllib2

image = urllib2.urlopen('http://upic.me/i/fj/the_wonderful_mist_once_again_01.jpg').read()
f = open('some_name.jpg','w')
f.write(image)
f.close()

答案 1 :(得分:0)

如果您尚未安装Requests

,则可以使用pip install requests

因为如果您没有提供img_url标题,服务器会将此referer重定向到另一个html页面(即您刚刚下载的html页面)。

因此,以下代码首先找到重定向url,并将其添加到HTTP Referer标头。

import requests
img_url = 'http://upic.me/i/fj/the_wonderful_mist_once_again_01.jpg'

r = requests.get(img_url, allow_redirects=False)   #  stop redirect 302 , capture redirects url

headers = {}
headers['Referer'] = r.headers['location']    # add this url to referer 'http://upic.me/show/55132055'

r = requests.get(img_url, headers=headers)
filename = img_url.split('/')[-1]             # find the file name in `img_url`
with open(filename, 'wb') as fh:             # use 'wb' to write in binary mode
    fh.write(r.content)