我已经实现了一个数据抓取脚本,该脚本使用CURL获取数据。
但是这个获取记录只有一页,但我想要所有数据,因为在那个页面上有分页。
我们正在使用
获取数据$xpath = new DOMXPath($dom);
$xpath_resultset = $xpath->query("//div[@class='parentListing']");
在上面的代码中,parentListing是div类,我在div和grep之间使用不同的不同类获取数据。
任何人都可以知道如何获取所有页面的分页数据。
如果有人有任何建议,请帮助我。
...谢谢
答案 0 :(得分:0)
我认为没有通用的分页类型。您应该知道分页元素div,ul,li或其名称,类名等。然后您可以访问分页链接,并向此链接发送请求
$xpath = new DOMXPath($dom);
$xpath_resultset = $xpath->query("//div[@class='parentListing']/a");
否则你必须走遍所有dom并决定哪个元素可以是paginate元素。有些页面会添加下一个和上一个元链接。您可以搜索这些标签:
$xpath = new DOMXPath($dom);
$next_resultset = $xpath->query("//link[@rel='next']");
$prev_resultset = $xpath->query("//link[@rel='prev']");