应用错误收集

如何遵循懒惰加载与scrapy？

时间：2018-12-30 14:20:32

标签： scrapy lazy-loading

我正在尝试爬网使用延迟加载来获取下一组项目的页面。我的搜寻器遵循正常的链接，但这一链接似乎有所不同：

页面： https://www.omegawatches.com/de/vintage-watches

后跟https://www.omegawatches.com/de/vintage-watches?p=2

但仅当您在浏览器中加载它时。 Scrapy将不会关注该链接。

有没有办法让Scray自动跟随1,2,3,4页？

1 个答案:

答案 0 :(得分：1)

该页面遵循虚拟滚动，其获取数据所用的api是

https://www.omegawatches.com/de/vintage-watches?p=1&ajax=1

它返回一个json数据，其中包含不同的详细信息，包括html格式的产品，以及下一个页面是否存在于a类别为link next的标签中

增加页码，直到没有a类的link next标签为止。