Question

我正在尝试抓取网站：https://www.firstpost.com/search/sachin-tendulkar 遵循的步骤：一种。 fetch（“ https://www.firstpost.com/search/sachin-tendulkar”） b。 view（response）->到目前为止，一切都按预期进行。开始使用以下语法提取数据后，我只能将div提升到特定级别 response.xpath（'// div [@ id =“ results”]'）。extract（）此div之后，我将无法访问任何其他div及其内容。

过去，在为其他网站开发抓取工具时，我还没有遇到过此类问题。您能否让我知道一种爬取内部div的方法？

Answer 1

您能否详细说明“无法访问任何其他div及其内容”？您有任何错误吗？

我可以访问所有div及其内容。对于前。搜索结果的主要内容位于div-gsc-expansionArea内部，可以通过

访问

//div[class="gsc-expansionArea"]

这可以使您迭代工作。

只有第一个结果在此div之外，可以通过另一个div访问

//div[class="gsc-webResult gsc-result"]

此//div[class="gcsc-branding"]的最后一个兄弟没有搜索结果。

特定级别的div之后，Scrapy不返回任何数据

1 个答案: