Question

我是编程方面的新手，也是Python的新手。我正在使用Selenium访问一个网站并按下一些按钮，但是当我在那个网站时，我还需要源代码。我知道如何使用urllib和Selenium来做到这一点，但我不知道的是如何最小化我对网站的请求数量。我不希望我的程序惹恼网站的所有者。

我想，既然我已经使用Selenium在那个网站上了，那么使用Selenium的.page_source就可以了。

顺便说一下，对于有多少请求过多，例如24小时，是否有经验法则？

Answer 1

webdriver实例具有page_source属性，该属性包含当前页面的源。

例如：

from selenium import webdriver

browser = webdriver.Firefox()
browser.get('http://example.com')
print browser.page_source
browser.quit()

我不知道如何最小化金额我正在向网站提出的请求。

读取驱动程序的page_source只是从浏览器中获取它，因此不会向服务器发出额外的http请求。

顺便说一句，是否有经验法则至少有多少请求太多，比方说，24小时？

您拥有该网站还是其他人的公共对象网站？如果是您的，请遵循您的托管服务提供商带宽限制和硬件限制。如果您不拥有它，请遵循网站的服务条款并尊重他们的robots.txt。（这可能是一个单独的问题最好的答案）