Question

我想从页面中提取每个产品（或项目）的链接。我使用scrapy shell进行测试，但它会保持返回空值[]。

以下是我使用的代码：

response.xpath('*//h2[@class="item-cell-name"]/a/@href')

非常感谢任何帮助。

Answer 1

不幸的是，项目内容是通过JS呈现的。但幸运的是，URL发送一个AJAX请求来获取项目的JSON。这使我们更容易解析它。您可以检查Google Chrome控制台中的XHR标签，以使用所需的标题模仿请求。

This URL返回产品列表。可以使用URL中的limit和offset参数来获取下一组数据。另外，要解析JSON内容，您可以使用标准库中的json.loads。