迭代jsoup中的元素并解析href

时间:2016-03-23 21:53:56

标签: java html jsoup href

我无法从一行表数据中获取href。虽然我能够让它工作,我想知道是否有人解释为什么我的代码在这里工作。

for (Element element : result.select("tr")) {
    if (element.select("tr.header.left").isEmpty()) {

        Elements tds = element.select("td");

        //The line below is what I don't understand
        String link = tds.get(0).getElementsByAttribute("href").first().attr("href");

        String position = tds.get(1).text();
     }
}

我以前使用过的那行不起作用如下:

String link = tds.get(0).attr("href");

为什么这一行会返回一个空字符串?我假设它与我如何通过“tr”选择迭代元素有关。但是,我不熟悉Elements与Element的结构。

感谢您的帮助!

1 个答案:

答案 0 :(得分:1)

Elements只是一个ArrayList<Element>

您必须编写额外代码的原因是因为<td>没有href属性,因此tds.get(0).attr("href");将无效。你可能想要从单元格中的<a>捕获href。更长的工作代码是:

  

对于行中的第一个单元格,获取具有@href属性的第一个元素(即链接),然后获取    @href属性

尝试以下示例(使用示例文档)以更清楚地显示如何访问子链接:

Element result = Jsoup.parse("<html><body><table><tr><td><a href=\"http://a.com\" /</td><td>Label1</td></tr><tr><td><a href=\"http://b.com\" /></td><td>Label2</td></tr></table></body></html>");

for (Element element : result.select("tr")) {
    if (element.select("tr.header.left").isEmpty()) {

        Elements tds = element.select("td");

        String link = tds.get(0).getElementsByTag("a").attr("href");
        String position = tds.get(1).text();

        System.out.println(link + ", " + position);
    }
}