在抓取图片url src时,获取数据:image / jpeg; base64

时间:2014-03-12 00:16:25

标签: python html image web-scraping

我试图使用python urllib2从网站上抓取图片网址。

这是获取html字符串的代码:

req = urllib2.Request(url, headers = urllib2Header)
htmlStr = urllib2.urlopen(req, timeout=15).read()

当我从浏览器查看时,图像的html代码如下所示:

<img id="main-image" src="http://abcd.com/images/41Q2VRKA2QL._SY300_.jpg" alt="" rel="" style="display: inline; cursor: pointer;">

然而,当我从我捕获的htmlStr中读取时,图像被转换为​​base64图像,如下所示:

<img id="main-image" src="data:image/jpeg;base64,/9j/4AAQSkZJRgABAQAAAQABAAD/2wBDAAUDBAQEAwUEBAQFBQU....">

我想知道为什么会这样。有没有办法获取原始图像网址而不是base64图像字符串?

感谢。

1 个答案:

答案 0 :(得分:0)

您可以使用BeautifulSoup

示例:

import urllib2
from bs4 import BeautifulSoup

url = "www.theurlyouwanttoscrape.com"
html = urllib2.urlopen(url)

soup = BeautifulSoup(html)

img_src = soup.find('img', {'id':'main_image'})['src']