我一直在学习Python并尝试过Web Scraping。 我可以设法抓取谷歌搜索结果页面以获得正常的谷歌搜索,虽然该页面已经折旧了。 对Google图片尝试过相同的操作,它也会被折旧。它看起来与浏览器中显示的内容不同。
Here我的代码。
from bs4 import BeautifulSoup
import requests
from PIL import Image
from io import BytesIO
search = input("Search for : ")
params = {"tbm": "isch", "source": "hp", "q": search}
r = requests.get("https://www.google.com/search", params=params)
print("URL :", r.url)
print("Status : ", r.status_code, "\n\n")
f = open("ImageResult.html", "w+")
f.write(r.text)
例如,我搜索"悟空"。 Google Image会返回this页面。
当我点击第一张图片时,会打开一个弹出窗口。或者说我按ctrl + click。我到了this页。
在此页面上,我可以看到实际图片的网址可以通过当前网址或"查看图片"按钮。但问题是,当我请求此页面时,我无法在页面版本中访问此页面/弹出窗口。
更新:我正在分享我正在获得的page。
答案 0 :(得分:0)
这取决于许多因素,如用户代理字符串,Cookie以及谷歌实验。谷歌因为为许多用户提供相同内容的不同方式而闻名。在搜索中,谷歌根据网站速度和用户代理加载不同的页面。谷歌也会在公开滚动之前随机运行搜索页面设计等实验,以动态实施A / B测试