使用scrapy抓取基于AngularJS的网站

时间:2017-05-02 12:05:26

标签: scrapy web-crawler

我能抓取一些页面,但有些页面需要时间来加载,因为DOM没有完全呈现,因此我无法抓取它。任何人都可以为此解决问题吗?

提前致谢

3 个答案:

答案 0 :(得分:3)

我推荐scrapy splash。它是scrapy的渲染服务。 (这是由scpinghub支持的,诈骗人员。)

答案 1 :(得分:1)

您可以使用像Selenium这样的网络驱动程序,使用像PhantomJS或Firefox这样的无头浏览器。单独使用PhantomJS,或使用其他众多替代品之一:CasperJS,SlimerJS等......

答案 2 :(得分:1)

作为使用Selenium的替代方法,您可以使用Firefox的Firebug插件或Chrome开发者工具来观看AngularJS应用程序在后台执行的后台请求,然后直接模拟这些请求。

虽然这需要更多工作,但刮刀速度要快得多,因为它不必等待页面渲染。