抓取延迟加载的网页,但服务器的回复状态为504

时间:2015-05-30 03:26:53

标签: python selenium web-crawler lazy-loading

我使用python和selenium来抓取延迟加载的quora(我认为是AJAX的东西)。所以我迭代地使用selenium发送命令“window.scrollBy(0,1500);”到将其发送到服务器的浏览器。 但是,在此过程中,一旦服务器返回:“无法加载资源:服务器响应状态为504(网关超时)”,页面将继续加载而没有任何新内容。我的代码没有崩溃,我检查浏览器的控制台,找出这个错误。我的代码如下所示:

browser = webdriver.Chrome()
browser.get(new_url)
try:
    for i in range(300):
        time.sleep(6)
        print i
        browser.execute_script("window.scrollBy(0,1500);")
except NoSuchElementException:
    pass

appendResults(existingList, browser, File)
browser.quit()

那么,即使一个查询被拒绝,如何继续向下滚动页面呢?或者除了selenium之外,还有其他工具/库/方法来抓取延迟加载的页面吗?非常感谢。

0 个答案:

没有答案