如何在没有显示最大页面的情况下抓取网站的下一页

时间:2017-07-25 05:57:13

标签: c# selenium web-scraping web-crawler

这是我正在尝试抓取的网站(http://biz.chosun.com/svc/list_in/list.html?catid=1A&pn=1),我的问题是如何在抓取第一页后进入下一页。在这个网站页面源代码中,它没有显示最大页面,但我发现它最多可以达到7000页。

这是我尝试但失败的代码。 image

1 个答案:

答案 0 :(得分:0)

您可以做的是检查当前网址。当您单击下一个按钮时,该网址会发生变化。

第1页的网址 - http://biz.chosun.com/svc/list_in/list.html?catid=1A&pn=0

第2页的网址 - http://biz.chosun.com/svc/list_in/list.html?catid=1A&pn=2

假设您在最后一页,并且您尝试单击下一个按钮,它将为您提供相同的URL。

所以,你应该编写类似的代码:

has_and_belongs_to_many