我希望能够获得当我们尝试打开页面时浏览器将向其发出GET请求的所有URL的列表。例如,如果我们尝试打开cnn.com,则第一个HTTP响应中有多个URL,浏览器会递归地请求这些URL。
我不是要呈现页面,而是试图获取呈现页面时所请求的所有URL的列表。仅对HTTP响应内容进行简单扫描是不够的,因为CSS中可能存在已下载的图像。我有什么办法可以用Java做到这一点?
我的问题类似于this question,但我想用Java编写。
答案 0 :(得分:0)
您可以使用Jsoup
库从网页中提取所有链接,例如:
Document document = Jsoup.connect("http://google.com").get();
Elements links = document.select("a[href]");
for(Element link : links) {
System.out.println(link.attr("href"));
}
Here's文档。