这是我正在尝试抓取的网站(http://biz.chosun.com/svc/list_in/list.html?catid=1A&pn=1),我的问题是如何在抓取第一页后进入下一页。在这个网站页面源代码中,它没有显示最大页面,但我发现它最多可以达到7000页。
这是我尝试但失败的代码。
答案 0 :(得分:0)
您可以做的是检查当前网址。当您单击下一个按钮时,该网址会发生变化。
第1页的网址 - http://biz.chosun.com/svc/list_in/list.html?catid=1A&pn=0
第2页的网址 - http://biz.chosun.com/svc/list_in/list.html?catid=1A&pn=2
假设您在最后一页,并且您尝试单击下一个按钮,它将为您提供相同的URL。
所以,你应该编写类似的代码:
has_and_belongs_to_many