查找图片的网址

时间:2017-11-18 03:05:48

标签: javascript jquery python image selenium

我目前正在使用python网络抓取工具来收集在Google上搜索到的图片。我用selenium向下滚动搜索页面并使用美丽的汤来记录所有元素。

对于某些图片,我可以轻松找到没有额外点击的网址,例如" http://www.XXXXX.jpg"。但对于某些图片,如果我不点击它并只检查元素,则src部分就像" data:image / jpeg; base 64,/ ..."。我会通过点击后检查缩放的图像来获得所需的网址。但我不知道如何使用硒来点击图片。

有没有办法获取此类图片的网址?

1 个答案:

答案 0 :(得分:0)

这可能意味着图像是在html的src部分内编码的 要保存图像,您只需要在

之后获得长行文本
data:image/jpeg;base 64,/

并解码它。

例如

import base64
b64_data = "here_text"
imgdata = base64.b64decode(b64_data)
filename = 'some_image.jpg'  # I assume you have a way of picking unique filenames
with open(filename, 'wb') as f:
    f.write(imgdata)

它也可能意味着在点击缩略图后运行javascript,然后点击元素你只需

driver.find_element_by_css_selector(".classname").click()