应用错误收集

时间：2019-07-05 02:22:09

标签： python-3.x web-scraping

这是示例页面：

有40个结果。如何使用类似以下内容的URL进入下一页：

我知道如何使用剪贴库（BS4，Selenium），但我不知道如何剪贴这样的站点。我一直在使用Google Chrome开发人员工具失败。

我知道pubmed拥有API，但API不会返回我需要的信息（天气文章是否可以免费下载）。像Python这样的抓取网站的常用工作流程是什么？

答案 0 :(得分：1)

这些页面不是URL方案的一部分。您应该查看python Selenium驱动程序。使用Selenium，您可以加载页面并在页面上让程序单击按钮来更改页面上的内容，这样您就可以进入网站的第二页，然后继续抓取新显示的HTML。

答案 1 :(得分：1)

从网站抓取分页信息不需要特定的URL。在大多数网站中，链接不会在页面源中显示链接文本。就像#之类。

在分页中使用硒时，无需费心查找URL链接，而不必使用Click方法来使next选项中的单击操作可用。

在上述网站中，对next选项进行迭代，直到最后一页。当到达最后一页时，它将没有下一个选项，因此我们可以从那里退出。