这是示例页面:
https://www.ncbi.nlm.nih.gov/pubmed/?term=hg38
有40个结果。如何使用类似以下内容的URL进入下一页:
https://www.ncbi.nlm.nih.gov/pubmed/?term=hg38 ?page = 2
我知道如何使用剪贴库(BS4,Selenium),但我不知道如何剪贴这样的站点。 我一直在使用Google Chrome开发人员工具失败。
我知道pubmed拥有API,但API不会返回我需要的信息(天气文章是否可以免费下载)。像Python这样的抓取网站的常用工作流程是什么?
答案 0 :(得分:1)
这些页面不是URL方案的一部分。您应该查看python Selenium驱动程序。使用Selenium,您可以加载页面并在页面上让程序单击按钮来更改页面上的内容,这样您就可以进入网站的第二页,然后继续抓取新显示的HTML。
答案 1 :(得分:1)
从网站抓取分页信息不需要特定的URL。在大多数网站中,链接不会在页面源中显示链接文本。就像#
之类。
在分页中使用硒时,无需费心查找URL链接,而不必使用Click
方法来使next
选项中的单击操作可用。
在上述网站中,对next
选项进行迭代,直到最后一页。当到达最后一页时,它将没有下一个选项,因此我们可以从那里退出。