应用错误收集

用scrapy等待加载页面

时间：2015-07-10 01:11:34

标签： web-scraping scrapy

我正在尝试使用FormRequest获取网页内容以绕过表单。但问题是，在此表单之后，有一个带有加载栏的页面，只有在此栏已满后，该站点才会显示我想要的内容。 scrapy脚本在Response对象中提供加载页面，而不是包含我想要的结果的最终网页。我能做些什么来解决这个问题？我相信也许我需要设置一个计时器让爬虫等待加载页面完成他的工作。

1 个答案:

答案 0 :(得分：0)

在进行基本的HTML抓取时，没有等待的概念。 Scrapy向Web服务器发出请求并收到响应 - 您只需获得响应即可。

页面上的加载栏很可能是使用Javascript来呈现页面的结果。一个普通的浏览器似乎在页面上等待 - 在它下面，它运行Javascript并且可能在它有足够的信息呈现页面之前向Web服务器发出更多请求。

为了以编程方式复制结果，您必须以某种方式呈现该Javascript。不幸的是，Scrapy没有内置的功能。

您拥有的一些选项包括：

http://www.seleniumhq.org/

https://github.com/scrapinghub/splash