我正在抓http://www.germandeli.com/Meats/Sausages
我想从页面中提取每个产品(或项目)的链接。我使用scrapy shell进行测试,但它会保持返回空值[]。
以下是我使用的代码:
response.xpath('*//h2[@class="item-cell-name"]/a/@href')
非常感谢任何帮助。
答案 0 :(得分:3)
不幸的是,项目内容是通过JS呈现的。但幸运的是,URL发送一个AJAX请求来获取项目的JSON。这使我们更容易解析它。您可以检查Google Chrome控制台中的XHR标签,以使用所需的标题模仿请求。
This URL返回产品列表。可以使用URL中的limit
和offset
参数来获取下一组数据。另外,要解析JSON内容,您可以使用标准库中的json.loads
。