我正在尝试抓取网站:https://www.firstpost.com/search/sachin-tendulkar 遵循的步骤: 一种。 fetch(“ https://www.firstpost.com/search/sachin-tendulkar”) b。 view(response)->到目前为止,一切都按预期进行。 开始使用以下语法提取数据后,我只能将div提升到特定级别 response.xpath('// div [@ id =“ results”]')。extract() 此div之后,我将无法访问任何其他div及其内容。
过去,在为其他网站开发抓取工具时,我还没有遇到过此类问题。 您能否让我知道一种爬取内部div的方法?
答案 0 :(得分:0)
您能否详细说明“无法访问任何其他div及其内容”?您有任何错误吗?
我可以访问所有div及其内容。对于前。搜索结果的主要内容位于div-gsc-expansionArea内部,可以通过
访问//div[class="gsc-expansionArea"]
这可以使您迭代工作。
只有第一个结果在此div之外,可以通过另一个div访问
//div[class="gsc-webResult gsc-result"]
此//div[class="gcsc-branding"]
的最后一个兄弟没有搜索结果。