我已经制作了一个爬虫,但我不明白我是如何通过分页的,有人可以帮助我,谢谢。
这是我的抓取器脚本:
if(!$fp = fopen("https://market.android.com/details?id=apps_topselling_paid&cat=LIBRARIES_AND_DEMO&start=0&num=24" ,"r" )) { return false; } $content = ""; while(!feof($fp)) { $content .= fgets($fp, 1024); } fclose($fp); if (!preg_match('/error-section/i', $content)) { preg_match_all("/id=([^/i", $content, $matches, PREG_SET_ORDER); $i=1; foreach ($matches as $val) { $link = $val[1]; if(!$fps = fopen("https://market.android.com/details?id=". $link ,"r" )) { return false; } $content_app = ""; while(!feof($fps)) { $content_app .= fgets($fps, 1024); } fclose($fps); preg_match("/([^/i", $content_app, $regs); echo $regs[1]. "
; } }else{ echo 'Error page not found!'; }
答案 0 :(得分:1)
我认为分页与博客上的评论分页类似。
一种方法是找到下一页的链接,然后点击该链接。使用正则表达式可以很容易地完成它。
另一种方式,如果你正在抓取一个网站,就要弄清楚他们的网页结构,然后只是逐步扫描网页,直到没有更多评论。