如何通过爬行器进行分页?

时间:2011-10-23 18:47:41

标签: php

我已经制作了一个爬虫,但我不明白我是如何通过分页的,有人可以帮助我,谢谢。

这是我的抓取器脚本:


    if(!$fp = fopen("https://market.android.com/details?id=apps_topselling_paid&cat=LIBRARIES_AND_DEMO&start=0&num=24" ,"r" )) {
        return false;
    }
    $content = "";

    while(!feof($fp)) {
        $content .= fgets($fp, 1024);
    }
    fclose($fp);

    if (!preg_match('/error-section/i', $content)) {
      preg_match_all("/id=([^/i", $content, $matches, PREG_SET_ORDER);

      $i=1;
      foreach ($matches as $val) {

          $link = $val[1];

          if(!$fps = fopen("https://market.android.com/details?id=". $link ,"r" )) {
            return false;
          }
          $content_app = "";

          while(!feof($fps)) {
            $content_app .= fgets($fps, 1024);
          }
          fclose($fps);

          preg_match("/([^/i", $content_app, $regs);
          echo $regs[1]. "
; } }else{ echo 'Error page not found!'; }

1 个答案:

答案 0 :(得分:1)

我认为分页与博客上的评论分页类似。

一种方法是找到下一页的链接,然后点击该链接。使用正则表达式可以很容易地完成它。

另一种方式,如果你正在抓取一个网站,就要弄清楚他们的网页结构,然后只是逐步扫描网页,直到没有更多评论。