Question

我目前正在使用python网络抓取工具来收集在Google上搜索到的图片。我用selenium向下滚动搜索页面并使用美丽的汤来记录所有元素。

对于某些图片，我可以轻松找到没有额外点击的网址，例如＆＃34; http://www.XXXXX.jpg＆＃34;。但对于某些图片，如果我不点击它并只检查元素，则src部分就像＆＃34; data：image / jpeg; base 64，/ ...＆＃34;。我会通过点击后检查缩放的图像来获得所需的网址。但我不知道如何使用硒来点击图片。

有没有办法获取此类图片的网址？

Answer 1

这可能意味着图像是在html的src部分内编码的要保存图像，您只需要在

之后获得长行文本

data:image/jpeg;base 64,/

并解码它。

例如

import base64
b64_data = "here_text"
imgdata = base64.b64decode(b64_data)
filename = 'some_image.jpg'  # I assume you have a way of picking unique filenames
with open(filename, 'wb') as f:
    f.write(imgdata)

它也可能意味着在点击缩略图后运行javascript，然后点击元素你只需

driver.find_element_by_css_selector(".classname").click()

查找图片的网址

1 个答案: