我正在尝试爬网使用延迟加载来获取下一组项目的页面。我的搜寻器遵循正常的链接,但这一链接似乎有所不同:
页面: https://www.omegawatches.com/de/vintage-watches
后跟https://www.omegawatches.com/de/vintage-watches?p=2
但仅当您在浏览器中加载它时。 Scrapy将不会关注该链接。
有没有办法让Scray自动跟随1,2,3,4页?
答案 0 :(得分:1)
该页面遵循虚拟滚动,其获取数据所用的api是
https://www.omegawatches.com/de/vintage-watches?p=1&ajax=1
它返回一个json数据,其中包含不同的详细信息,包括html格式的产品,以及下一个页面是否存在于a
类别为link next
的标签中
增加页码,直到没有a
类的link next
标签为止。