我是网络抓取和scrapy的新手。
我试图通过解析json中的GET响应来从网站上抓取项目。
但是,我注意到,原始的json响应不仅仅包含网站上显示的90个左右的元素,而是包含140个+元素。
仅仅通过检查json数组,最终在浏览器中显示的项目与不会显示的项目之间似乎没有任何区别。
我是否可以使用scrapy捕获已过滤的项目数组而不是原始信息?
所以我意识到,当网站加载时,它会产生1个产品详细信息请求,1个产品库存可用性。通过交叉检查这些响应,我意识到只显示那些有可用项目的产品。
现在我的问题是,这两个请求可以在一个scrapy蜘蛛类中处理吗?
答案 0 :(得分:0)
我建议抓取所有项目,然后在custom pipeline中过滤它们。
您只需在open_spider()
中获取库存数据,然后在process_item()
中过滤掉您不需要的商品。