Python Selenium 2 - 以最小的影响抓取HTML源代码

时间:2014-02-08 18:03:51

标签: python selenium urllib

我是编程方面的新手,也是Python的新手。我正在使用Selenium访问一个网站并按下一些按钮,但是当我在那个网站时,我还需要源代码。我知道如何使用urllib和Selenium来做到这一点,但我不知道的是如何最小化我对网站的请求数量。我不希望我的程序惹恼网站的所有者。

我想,既然我已经使用Selenium在那个网站上了,那么使用Selenium的.page_source就可以了。

顺便说一下,对于有多少请求过多,例如24小时,是否有经验法则?

1 个答案:

答案 0 :(得分:0)

webdriver实例具有page_source属性,该属性包含当前页面的源。

例如:

from selenium import webdriver

browser = webdriver.Firefox()
browser.get('http://example.com')
print browser.page_source
browser.quit()
  

我不知道如何最小化金额   我正在向网站提出的请求。

读取驱动程序的page_source只是从浏览器中获取它,因此不会向服务器发出额外的http请求。


  

顺便说一句,是否有经验法则   至少有多少请求太多,   比方说,24小时?

您拥有该网站还是其他人的公共对象网站?如果是您的,请遵循您的托管服务提供商带宽限制和硬件限制。如果您不拥有它,请遵循网站的服务条款并尊重他们的robots.txt。 (这可能是一个单独的问题最好的答案)