使用python lxml刮掉多个页面的Glassdoor

时间:2018-02-09 14:47:51

标签: python web-scraping

我使用以下脚本通过Glassdoor抓取工作列表。下面的脚本只会抓取第一页。我想知道,我怎么能扩展它以便从第1页到最后一页?

https://www.scrapehero.com/how-to-scrape-job-listings-from-glassdoor-using-python-and-lxml/

我非常感谢任何帮助

1 个答案:

答案 0 :(得分:1)

我会提供更一般的答案。抓取时,要获取下一页,只需将页面上的链接转到下一页。

对于Glassdoor,您的页面链接都包含page类,并且通过单击li类的next按钮可访问下一页。然后你的XPath变成:

//li[@class="next"]

然后您可以使用以下方式访问它:

element = document.xpath("//li[@class='next']")

我们专门寻找链接,以便我们可以将a添加到我们的xpath:

//li[@class="next"]//a

并进一步指明我们只需要href属性:

//li[@class="next"]//a/@href

现在您可以使用

访问该链接
link = document.xpath('//li[@class="next"]//a/@href')

自2/9/18开始测试并使用Glassdoor。