如何使用Java递归从网站导航构建目录?

时间:2018-12-12 12:21:08

标签: java web-scraping

我正在寻找一种可以从网站导航中获取所有目录链接的工具。我需要一个通用的解决方案,使我可以轻松地从任何网站获取目录的URL。

问题在于每个网站都有不同的导航结构。某些网页具有排序列表,某些网页具有无序列表,有些网页仅具有标签。我可以使用CSS选择器来处理这些情况,但有时这些选择器会获得不相关的链接,这些链接不在导航栏中。因为导航栏之外还有其他链接,如何处理导航栏之外的那些链接?

public void TableofContentsURLMap(String URL) {
    Document doc = Jsoup.parse(URL);
    Elements listelements = doc.select("ol>li>a,ul>li>a,a");

    if (listelements.isEmpty()) {
        return;
    } else {
        for (Element subdocumentlink : listelements) {
            TableofContentsURLMap(subdocumentlink.attr("href"));
        }
        //Do stuff
    }

}

我愿意接受新的工具建议和想法。谢谢。

0 个答案:

没有答案