如何在php中使用curl获取所有页面分页数据

时间:2014-04-18 13:30:06

标签: php curl web-scraping

我已经实现了一个数据抓取脚本,该脚本使用CURL获取数据。

但是这个获取记录只有一页,但我想要所有数据,因为在那个页面上有分页。

我们正在使用

获取数据
$xpath = new DOMXPath($dom);
$xpath_resultset =  $xpath->query("//div[@class='parentListing']");

在上面的代码中,parentListing是div类,我在div和grep之间使用不同的不同类获取数据。

任何人都可以知道如何获取所有页面的分页数据。

如果有人有任何建议,请帮助我。

...谢谢

1 个答案:

答案 0 :(得分:0)

我认为没有通用的分页类型。您应该知道分页元素div,ul,li或其名称,类名等。然后您可以访问分页链接,并向此链接发送请求

$xpath = new DOMXPath($dom);
$xpath_resultset =  $xpath->query("//div[@class='parentListing']/a");

否则你必须走遍所有dom并决定哪个元素可以是paginate元素。有些页面会添加下一个和上一个元链接。您可以搜索这些标签:

$xpath = new DOMXPath($dom);
$next_resultset =  $xpath->query("//link[@rel='next']");
$prev_resultset =  $xpath->query("//link[@rel='prev']");