使用Java具有存储在字符串中的网页的源代码。我想提取源代码中的所有url并输出它们。我对正则表达式等很糟糕,并且不知道如何处理这个问题。任何帮助将不胜感激。
答案 0 :(得分:6)
Don't use regex。使用parser之类的JSoup。
String html = "your html string";
Document document = Jsoup.parse(html); // Can also take an URL.
for (Element element : document.getElementsByTag("a")) {
System.out.println(element.attr("href"));
}
答案 1 :(得分:4)
您可以使用HtmlUnit,然后提取链接就像:
WebClient wc = new WebClient();
URL url = new URL("http://www.oogly.co.uk/");
HtmlPage page = (HtmlPage) wc.getPage(url);
PrintWriter printWriter = new PrintWriter(new FileWriter(FILE_NAME));
List anchors = page.getAnchors();