我使用以下脚本通过Glassdoor抓取工作列表。下面的脚本只会抓取第一页。我想知道,我怎么能扩展它以便从第1页到最后一页?
https://www.scrapehero.com/how-to-scrape-job-listings-from-glassdoor-using-python-and-lxml/
我非常感谢任何帮助
答案 0 :(得分:1)
我会提供更一般的答案。抓取时,要获取下一页,只需将页面上的链接转到下一页。
对于Glassdoor,您的页面链接都包含page
类,并且通过单击li
类的next
按钮可访问下一页。然后你的XPath变成:
//li[@class="next"]
然后您可以使用以下方式访问它:
element = document.xpath("//li[@class='next']")
我们专门寻找链接,以便我们可以将a
添加到我们的xpath:
//li[@class="next"]//a
并进一步指明我们只需要href
属性:
//li[@class="next"]//a/@href
现在您可以使用
访问该链接link = document.xpath('//li[@class="next"]//a/@href')
自2/9/18开始测试并使用Glassdoor。