如何使用BeautifulSoup遍历网站的每个页面进行网页抓取

时间:2017-09-20 23:04:25

标签: python html web-scraping beautifulsoup

我正在使用BeautifulSoup从网站上发布职位发布数据。我有工作代码可以完成我需要的工作,但它只会删除工作发布的第一页。我无法弄清楚如何迭代更新网址以刮取每个页面。我是Python的新手,已经查看过类似问题的几个不同的解决方案,但还没有想出如何将它们应用到我的特定网址。我想我需要迭代地更新网址或以某种方式单击下一个按钮,然后通过每个页面循环我现有的代码。我感谢任何解决方案。

url:https://jobs.utcaerospacesystems.com/search-jobs

1 个答案:

答案 0 :(得分:0)

首先,BeautifulSoup与GETing网页没有任何关系 - 您自己获取网页,然后将其提供给bs4进行处理。

您链接的页面的问题是它是javascript - 它只能在浏览器(或任何其他javascript VM)中正确呈现。

@Fabricator走在正确的轨道上 - 你需要观察开发者控制台,看看ajax请求js发送到服务器的内容。在这种情况下,还要查看查询字符串参数,其中包括一个名为CurrentPage的参数 - 可能是您要关注的参数。