我是编程方面的新手,也是Python的新手。我正在使用Selenium访问一个网站并按下一些按钮,但是当我在那个网站时,我还需要源代码。我知道如何使用urllib和Selenium来做到这一点,但我不知道的是如何最小化我对网站的请求数量。我不希望我的程序惹恼网站的所有者。
我想,既然我已经使用Selenium在那个网站上了,那么使用Selenium的.page_source就可以了。
顺便说一下,对于有多少请求过多,例如24小时,是否有经验法则?
答案 0 :(得分:0)
webdriver实例具有page_source
属性,该属性包含当前页面的源。
例如:
from selenium import webdriver
browser = webdriver.Firefox()
browser.get('http://example.com')
print browser.page_source
browser.quit()
我不知道如何最小化金额 我正在向网站提出的请求。
读取驱动程序的page_source
只是从浏览器中获取它,因此不会向服务器发出额外的http请求。
顺便说一句,是否有经验法则 至少有多少请求太多, 比方说,24小时?
您拥有该网站还是其他人的公共对象网站?如果是您的,请遵循您的托管服务提供商带宽限制和硬件限制。如果您不拥有它,请遵循网站的服务条款并尊重他们的robots.txt。 (这可能是一个单独的问题最好的答案)