Question

我使用jsoup构建了一个自定义抓取工具。我可以废弃特定商家信息页面中的所有数据。但对于具有分页的页面，我如何从分页元素中获取链接。比如亚马逊，ebay等的任何零售清单，我将产品清单的第一页的URL传递给jsoup。它工作正常。但是我如何自动完成剩余页面链接的过程。

我明白我可以通过硬编码分页的类来获得元素。但我正在寻找一种通用的方法。

Answer 1

    for (int i = 1; i < 10; i++) {
        String url = "http://exampleurl.com/index.php?page=" + i;
        Document doc = Jsoup.connect(url).get();
    }

希望这会带来一些启示。该代码将通过分页在网站中循环十页。

Answer 2

如果网站使用rel="next"注释其分页链接，您可以按照这些链接检索更多页面。

除此之外，HTML本身没有任何内容可以指定分页中页面之间的关系。您必须使用启发式方法（例如，包含“next”的文本链接或带有递增数字的链接序列（1,2,3 ... last））。显然，这些启发式方法不适用于每个站点，并且可能在站点设计更新时停止工作。

使用自定义抓取工具访问分页中的所有页面

2 个答案: