使用自定义抓取工具访问分页中的所有页面

时间:2013-02-08 13:18:35

标签: html pagination jsoup web-crawler

我使用jsoup构建了一个自定义抓取工具。我可以废弃特定商家信息页面中的所有数据。但对于具有分页的页面,我如何从分页元素中获取链接。比如亚马逊,ebay等的任何零售清单,我将产品清单的第一页的URL传递给jsoup。它工作正常。但是我如何自动完成剩余页面链接的过程。

我明白我可以通过硬编码分页的类来获得元素。但我正在寻找一种通用的方法。

2 个答案:

答案 0 :(得分:1)

    for (int i = 1; i < 10; i++) {
        String url = "http://exampleurl.com/index.php?page=" + i;
        Document doc = Jsoup.connect(url).get();
    }

希望这会带来一些启示。该代码将通过分页在网站中循环十页。

答案 1 :(得分:0)

如果网站使用rel="next"注释其分页链接,您可以按照这些链接检索更多页面。

除此之外,HTML本身没有任何内容可以指定分页中页面之间的关系。您必须使用启发式方法(例如,包含“next”的文本链接或带有递增数字的链接序列(1,2,3 ... last))。显然,这些启发式方法不适用于每个站点,并且可能在站点设计更新时停止工作。