提取在Java中呈现HTML页面时获得的网址列表

时间:2019-03-26 08:47:37

标签: java html http url

我希望能够获得当我们尝试打开页面时浏览器将向其发出GET请求的所有URL的列表。例如,如果我们尝试打开cnn.com,则第一个HTTP响应中有多个URL,浏览器会递归地请求这些URL。

我不是要呈现页面,而是试图获取呈现页面时所请求的所有URL的列表。仅对HTTP响应内容进行简单扫描是不够的,因为CSS中可能存在已下载的图像。我有什么办法可以用Java做到这一点?

我的问题类似于this question,但我想用Java编写。

1 个答案:

答案 0 :(得分:0)

您可以使用Jsoup库从网页中提取所有链接,例如:

Document document = Jsoup.connect("http://google.com").get();
Elements links = document.select("a[href]");
for(Element link : links) {
    System.out.println(link.attr("href"));
}

Here's文档。