如何遵循懒惰加载与scrapy?

时间:2018-12-30 14:20:32

标签: scrapy lazy-loading

我正在尝试爬网使用延迟加载来获取下一组项目的页面。我的搜寻器遵循正常的链接,但这一链接似乎有所不同:

页面: https://www.omegawatches.com/de/vintage-watches

后跟https://www.omegawatches.com/de/vintage-watches?p=2

但仅当您在浏览器中加载它时。 Scrapy将不会关注该链接。

有没有办法让Scray自动跟随1,2,3,4页?

1 个答案:

答案 0 :(得分:1)

该页面遵循虚拟滚动,其获取数据所用的api是

https://www.omegawatches.com/de/vintage-watches?p=1&ajax=1

它返回一个json数据,其中包含不同的详细信息,包括html格式的产品,以及下一个页面是否存在于a类别为link next的标签中

增加页码,直到没有a类的link next标签为止。