如何逐页报废

时间:2017-05-06 10:42:54

标签: php web web-scraping

我想废弃pubMed,但我发现该网址不包含页码。

例如,https://www.ncbi.nlm.nih.gov/pubmed?term=(cancer)%20AND%20(%222014%22%5BDate%20-%20Publication%5D%20%3A%20%222017%22%5BDate%20-%20Publication%5D)< ---这是第一页的网址。但是,如果我手动点击下一页。 https://www.ncbi.nlm.nih.gov/pubmed< ---下一页。

因此,我不能通过改变页码来改变。

我该怎么做才能解决这个问题?

感谢〜

1 个答案:

答案 0 :(得分:0)

您可以使用POST请求指定页码:

提供值的元素的名称是:

EntrezSystem2.PEntrez.PubMed.Pubmed_ResultsPanel.Pubmed_Pager.cPage

如果您正在使用curl,请将请求更改为POST并将上述键添加到帖子数据中,将其值设置为您想要的任何页面。您可能必须在POST中包含一些其他值才能获得有效请求,但只需检查页面源以查看预期的其他值。