我使用jsoup构建了一个自定义抓取工具。我可以废弃特定商家信息页面中的所有数据。但对于具有分页的页面,我如何从分页元素中获取链接。比如亚马逊,ebay等的任何零售清单,我将产品清单的第一页的URL传递给jsoup。它工作正常。但是我如何自动完成剩余页面链接的过程。
我明白我可以通过硬编码分页的类来获得元素。但我正在寻找一种通用的方法。
答案 0 :(得分:1)
for (int i = 1; i < 10; i++) {
String url = "http://exampleurl.com/index.php?page=" + i;
Document doc = Jsoup.connect(url).get();
}
希望这会带来一些启示。该代码将通过分页在网站中循环十页。
答案 1 :(得分:0)
如果网站使用rel="next"
注释其分页链接,您可以按照这些链接检索更多页面。
除此之外,HTML本身没有任何内容可以指定分页中页面之间的关系。您必须使用启发式方法(例如,包含“next”的文本链接或带有递增数字的链接序列(1,2,3 ... last))。显然,这些启发式方法不适用于每个站点,并且可能在站点设计更新时停止工作。