python beautifulsoup捕获图像

时间:2016-05-09 10:04:07

标签: python web-scraping beautifulsoup

使用下面的脚本我试图捕获图像,然后将其保存在磁盘上。然后必须保存DB中的本地路径。

我写了一个简单的代码来从网页上捕获图像: -

import urllib2
from os.path import basename
from urlparse import urlsplit
from bs4 import BeautifulSoup

url = "http://www.someweblink.com/path_to_the_target_webpage"
urlContent = urllib2.urlopen(url).read()
soup = BeautifulSoup(''.join(urlContent))
imgTags = soup.findAll('img')
for imgTag in imgTags:
    imgUrl = imgTag['src']
    try:
        imgData = urllib2.urlopen(imgUrl).read()
        fileName = basename(urlsplit(imgUrl)[2])
        output = open(fileName,'wb')
        output.write(imgData)
        output.close()
    except:
        pass

图片的页面代码: -

<div class="single-post-thumb"> <img width="620" height="330" src="http://ccccc.com/wp-content/uploads/2016/05/weerewr.jpg"/>

1 个答案:

答案 0 :(得分:0)

如果您只想使用图片的网址下载图片,可以尝试使用

import urllib
img_url = "Image url goes here"
urllib.urlretrieve(img_url,'test.jpg')

它将使用当前工作目录中的test.jpg名称保存您的图像。

注意:有时提及图像的完整网址&#34; src&#34; img标签的属性包含相对网址。