Question

我已经实现了一个数据抓取脚本，该脚本使用CURL获取数据。

但是这个获取记录只有一页，但我想要所有数据，因为在那个页面上有分页。

我们正在使用

获取数据

$xpath = new DOMXPath($dom);
$xpath_resultset =  $xpath->query("//div[@class='parentListing']");

在上面的代码中，parentListing是div类，我在div和grep之间使用不同的不同类获取数据。

任何人都可以知道如何获取所有页面的分页数据。

如果有人有任何建议，请帮助我。

...谢谢

Answer 1

我认为没有通用的分页类型。您应该知道分页元素div，ul，li或其名称，类名等。然后您可以访问分页链接，并向此链接发送请求

$xpath = new DOMXPath($dom);
$xpath_resultset =  $xpath->query("//div[@class='parentListing']/a");

否则你必须走遍所有dom并决定哪个元素可以是paginate元素。有些页面会添加下一个和上一个元链接。您可以搜索这些标签：

$xpath = new DOMXPath($dom);
$next_resultset =  $xpath->query("//link[@rel='next']");
$prev_resultset =  $xpath->query("//link[@rel='prev']");