Question

我试图使用python urllib2从网站上抓取图片网址。

这是获取html字符串的代码：

req = urllib2.Request(url, headers = urllib2Header)
htmlStr = urllib2.urlopen(req, timeout=15).read()

当我从浏览器查看时，图像的html代码如下所示：

<img id="main-image" src="http://abcd.com/images/41Q2VRKA2QL._SY300_.jpg" alt="" rel="" style="display: inline; cursor: pointer;">

然而，当我从我捕获的htmlStr中读取时，图像被转换为base64图像，如下所示：

<img id="main-image" src="data:image/jpeg;base64,/9j/4AAQSkZJRgABAQAAAQABAAD/2wBDAAUDBAQEAwUEBAQFBQU....">

我想知道为什么会这样。有没有办法获取原始图像网址而不是base64图像字符串？

感谢。

Answer 1

您可以使用BeautifulSoup

示例：

import urllib2 from bs4 import BeautifulSoup url = "www.theurlyouwanttoscrape.com" html = urllib2.urlopen(url) soup = BeautifulSoup(html) img_src = soup.find('img', {'id':'main_image'})['src']

在抓取图片url src时，获取数据：image / jpeg; base64

1 个答案: