我正在寻找一种可以从网站导航中获取所有目录链接的工具。我需要一个通用的解决方案,使我可以轻松地从任何网站获取目录的URL。
问题在于每个网站都有不同的导航结构。某些网页具有排序列表,某些网页具有无序列表,有些网页仅具有标签。我可以使用CSS选择器来处理这些情况,但有时这些选择器会获得不相关的链接,这些链接不在导航栏中。因为导航栏之外还有其他链接,如何处理导航栏之外的那些链接?
public void TableofContentsURLMap(String URL) {
Document doc = Jsoup.parse(URL);
Elements listelements = doc.select("ol>li>a,ul>li>a,a");
if (listelements.isEmpty()) {
return;
} else {
for (Element subdocumentlink : listelements) {
TableofContentsURLMap(subdocumentlink.attr("href"));
}
//Do stuff
}
}
我愿意接受新的工具建议和想法。谢谢。