如何刮动态网站 - 使用python scrapy?

时间:2017-04-27 21:32:20

标签: javascript python dom web-scraping scrapy

我可以使用scrapy抓静态网站,但是我试图抓取的其他网站在其HTML中有2个部分; “头部”和“身体上的负荷”。我需要的信息是在body onload部分。我相信在请求html后加载内容,因此网站是动态的。这是可行的使用scrapy吗?我还需要哪些其他工具?

1 个答案:

答案 0 :(得分:0)

查看scrapy_splash,它是scrapy的渲染服务,可让您抓取基于javascript的网站。

您还可以创建自己的下载中间件,并将 Selenium PhantomJS example)一起使用。这种技术的缺点是你失去了scrapy提供的并发性。

无论如何,我认为 splash 是最好的方法。

希望这有帮助。