我目前正在使用python网络抓取工具来收集在Google上搜索到的图片。我用selenium向下滚动搜索页面并使用美丽的汤来记录所有元素。
对于某些图片,我可以轻松找到没有额外点击的网址,例如" http://www.XXXXX.jpg"。但对于某些图片,如果我不点击它并只检查元素,则src部分就像" data:image / jpeg; base 64,/ ..."。我会通过点击后检查缩放的图像来获得所需的网址。但我不知道如何使用硒来点击图片。
有没有办法获取此类图片的网址?
答案 0 :(得分:0)
这可能意味着图像是在html的src
部分内编码的
要保存图像,您只需要在
data:image/jpeg;base 64,/
并解码它。
例如
import base64
b64_data = "here_text"
imgdata = base64.b64decode(b64_data)
filename = 'some_image.jpg' # I assume you have a way of picking unique filenames
with open(filename, 'wb') as f:
f.write(imgdata)
它也可能意味着在点击缩略图后运行javascript,然后点击元素你只需
driver.find_element_by_css_selector(".classname").click()