如何在HTML文件中提取所有链接(href)?

时间:2015-01-10 03:02:17

标签: java href

我正在尝试使用Java从HTML文件中提取所有链接。

模式似乎是<a href = "Name">。 我想获得一个能够让我访问所需网页的网址。

你们可以帮我解决一下(string.contains?string.indexof?)?

谢谢。

1 个答案:

答案 0 :(得分:1)

基本的基本方法是使用正则表达式匹配。

    String html = "YOUR HTML";
    String regex = "<a href\\s?=\\s?\"([^\"]+)\">";
    Pattern pattern = Pattern.compile(regex);
    Matcher matcher = pattern.matcher(html);
    int index = 0;
    while (matcher.find(index)) {
        String wholething = matcher.group(); // includes "<a href" and ">"
        String link = matcher.group(1); // just the link
        // do something with wholething or link.
        index = matcher.end();
    }

另一方面,您可以使用类似Document的内容。我对此并不了解。