我正在使用BeautifulSoup从网站上发布职位发布数据。我有工作代码可以完成我需要的工作,但它只会删除工作发布的第一页。我无法弄清楚如何迭代更新网址以刮取每个页面。我是Python的新手,已经查看过类似问题的几个不同的解决方案,但还没有想出如何将它们应用到我的特定网址。我想我需要迭代地更新网址或以某种方式单击下一个按钮,然后通过每个页面循环我现有的代码。我感谢任何解决方案。
答案 0 :(得分:0)
首先,BeautifulSoup与GETing网页没有任何关系 - 您自己获取网页,然后将其提供给bs4进行处理。
您链接的页面的问题是它是javascript - 它只能在浏览器(或任何其他javascript VM)中正确呈现。
@Fabricator走在正确的轨道上 - 你需要观察开发者控制台,看看ajax请求js发送到服务器的内容。在这种情况下,还要查看查询字符串参数,其中包括一个名为CurrentPage
的参数 - 可能是您要关注的参数。