特定级别的div之后,Scrapy不返回任何数据

时间:2018-07-03 10:44:39

标签: scrapy scrapy-spider

我正在尝试抓取网站:https://www.firstpost.com/search/sachin-tendulkar 遵循的步骤: 一种。 fetch(“ https://www.firstpost.com/search/sachin-tendulkar”) b。 view(response)->到目前为止,一切都按预期进行。 开始使用以下语法提取数据后,我只能将div提升到特定级别 response.xpath('// div [@ id =“ results”]')。extract() 此div之后,我将无法访问任何其他div及其内容。

过去,在为其他网站开发抓取工具时,我还没有遇到过此类问题。 您能否让我知道一种爬取内部div的方法?

1 个答案:

答案 0 :(得分:0)

您能否详细说明“无法访问任何其他div及其内容”?您有任何错误吗?

我可以访问所有div及其内容。对于前。搜索结果的主要内容位于div-gsc-expansionArea内部,可以通过

访问
//div[class="gsc-expansionArea"]

这可以使您迭代工作。

只有第一个结果在此div之外,可以通过另一个div访问

//div[class="gsc-webResult gsc-result"]

//div[class="gcsc-branding"]的最后一个兄弟没有搜索结果。