Python-如何在不分页URL的情况下分页页面

时间:2019-07-05 02:22:09

标签: python-3.x web-scraping

这是示例页面:

https://www.ncbi.nlm.nih.gov/pubmed/?term=hg38

有40个结果。如何使用类似以下内容的URL进入下一页:

https://www.ncbi.nlm.nih.gov/pubmed/?term=hg38 ?page = 2

我知道如何使用剪贴库(BS4,Selenium),但我不知道如何剪贴这样的站点。 我一直在使用Google Chrome开发人员工具失败。

我知道pubmed拥有API,但API不会返回我需要的信息(天气文章是否可以免费下载)。像Python这样的抓取网站的常用工作流程是什么?

2 个答案:

答案 0 :(得分:1)

这些页面不是URL方案的一部分。您应该查看python Selenium驱动程序。使用Selenium,您可以加载页面并在页面上让程序单击按钮来更改页面上的内容,这样您就可以进入网站的第二页,然后继续抓取新显示的HTML。

Python3 Selenium Driver

Selenium Documentation

答案 1 :(得分:1)

从网站抓取分页信息不需要特定的URL。在大多数网站中,链接不会在页面源中显示链接文本。就像#之类。

在分页中使用硒时,无需费心查找URL链接,而不必使用Click方法来使next选项中的单击操作可用。

在上述网站中,对next选项进行迭代,直到最后一页。当到达最后一页时,它将没有下一个选项,因此我们可以从那里退出。