使用Java在网页上查找链接

时间:2010-04-26 23:46:19

标签: java regex hyperlink

使用Java具有存储在字符串中的网页的源代码。我想提取源代码中的所有url并输出它们。我对正则表达式等很糟糕,并且不知道如何处理这个问题。任何帮助将不胜感激。

2 个答案:

答案 0 :(得分:6)

Don't use regex。使用parser之类的JSoup

String html = "your html string";
Document document = Jsoup.parse(html); // Can also take an URL.
for (Element element : document.getElementsByTag("a")) {
    System.out.println(element.attr("href"));
}

答案 1 :(得分:4)

您可以使用HtmlUnit,然后提取链接就像:

WebClient wc = new WebClient();
URL url = new URL("http://www.oogly.co.uk/");
HtmlPage page = (HtmlPage) wc.getPage(url);
PrintWriter printWriter = new PrintWriter(new FileWriter(FILE_NAME));
List anchors = page.getAnchors();