应用错误收集

如何使用BeautifulSoup遍历网站的每个页面进行网页抓取

时间：2017-09-20 23:04:25

标签： python html web-scraping beautifulsoup

我正在使用BeautifulSoup从网站上发布职位发布数据。我有工作代码可以完成我需要的工作，但它只会删除工作发布的第一页。我无法弄清楚如何迭代更新网址以刮取每个页面。我是Python的新手，已经查看过类似问题的几个不同的解决方案，但还没有想出如何将它们应用到我的特定网址。我想我需要迭代地更新网址或以某种方式单击下一个按钮，然后通过每个页面循环我现有的代码。我感谢任何解决方案。

url：https://jobs.utcaerospacesystems.com/search-jobs

1 个答案:

答案 0 :(得分：0)

首先，BeautifulSoup与GETing网页没有任何关系 - 您自己获取网页，然后将其提供给bs4进行处理。

您链接的页面的问题是它是javascript - 它只能在浏览器（或任何其他javascript VM）中正确呈现。

@Fabricator走在正确的轨道上 - 你需要观察开发者控制台，看看ajax请求js发送到服务器的内容。在这种情况下，还要查看查询字符串参数，其中包括一个名为CurrentPage的参数 - 可能是您要关注的参数。