如何使用HTML DOM解析器解析无限的分页网页?

时间:2013-07-10 13:05:19

标签: php html-parsing simple-html-dom domparser

您好我正在尝试使用简单的html dom解析器解析具有无限分页(滚动提供更多项目)的网页。但我只能获取第一页的数据。如何获取其他网页的数据。

<?php

require  'simple_html_dom.php';

$html = file_get_html('http://www.flipkart.com/mobiles/pr?sid=tyy,4io&otracker=ch_vn_mobile_filter_Mobile%20Brands');

foreach ($html->find("div.pu-visual-section a") as $el) {

        $product_url = "http://flipkart.com".$el->href;

        echo $product_url;echo "<br>";

    }


 ?>

1 个答案:

答案 0 :(得分:1)

禁用javascript,转到该网站并检查是否有“更多”按钮。使用其中的链接获取新结果。

编辑: 我禁用了javascript并检查了你的网址。

页面底部有一个“下一个”链接:

http://www.flipkart.com/mobiles/~new-releases/pr?sid=tyy%2C4io&start=21&ref=436ee817-3fca-44b8-9b53-777f12126701

&start=21将是您获取新项目的必要部分。 &start=41

编辑2: 因此,您不想解析所有现有项目,而是要计算项目数。

preg_match('/class=\"items\">(.*?)</', $result, $match);

有了这个,你应该得到想要的结果。我没有用pagecontent本身测试它。 如果有帮助,请告诉我们!