使用jSoup

时间:2015-06-10 11:20:08

标签: java html jsoup

我想使用Jsoup库在网站中找到重要的链接。因此,假设我们有以下代码:

<h1><a href="http://example.com">This is important </a></h1>

现在在解析时我们如何找到标签a在h1标签内?

2 个答案:

答案 0 :(得分:1)

你可以这样做:

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

Elements headlinesCat1 = doc.getElementsByTag("h1");
for (Element headline : headlinesCat1) {
    Elements importantLinks = headline.getElementsByTag("a");
    for (Element link : importantLinks) {
        String linkHref = link.attr("href");
        String linkText = link.text();
        System.out.println(linkHref);
    }
}

取自JSoup Cookbook

答案 1 :(得分:0)

使用选择器:

Elements elements = doc.select("h1 > a");