在没有找到这个相当常见的刮擦问题的明确答案的情况下,经历了许多相关问题。
我正试图刮掉一个典型的房地产网站。
(start_url = http://www.metrocuadrado.com/web/buscarFiltros/bogota-apartamento-venta)。
每个(列表)页面有16个广告。下一个(列表)页面显示接下来的16个广告,并通过AJAX获取其内容(按下"下一页"按钮)。
我需要的详细商品信息是在特定广告页面上获得的,更深层次,跟随广告链接。此信息是基于URL的,而不是AJAX。
我一直试图找出CrawlSpider和Selenium的解决方案,但我对如何组合规则和回调感到困惑。任何建议(一般结构)都会受到欢迎!