Question

我使用以下脚本通过Glassdoor抓取工作列表。下面的脚本只会抓取第一页。我想知道，我怎么能扩展它以便从第1页到最后一页？

我非常感谢任何帮助

Answer 1

我会提供更一般的答案。抓取时，要获取下一页，只需将页面上的链接转到下一页。

对于Glassdoor，您的页面链接都包含page类，并且通过单击li类的next按钮可访问下一页。然后你的XPath变成：

//li[@class="next"]

然后您可以使用以下方式访问它：

element = document.xpath("//li[@class='next']")

我们专门寻找链接，以便我们可以将a添加到我们的xpath：

//li[@class="next"]//a

并进一步指明我们只需要href属性：

//li[@class="next"]//a/@href

现在您可以使用

访问该链接

link = document.xpath('//li[@class="next"]//a/@href')

自2/9/18开始测试并使用Glassdoor。