Jsoup:在html中找到没有id的元素

时间:2012-08-15 09:13:35

标签: java html parsing jsoup

我是Jsoup的新手,我正在尝试解析一个html文件来查找没有id的所有元素。到目前为止,我只有这段代码:

            Document doc = Jsoup.parse(input, null);
        for (Element el : doc.getAllElements()) {
            hasId = el.hasAttr("id");
            if (!hasId) {
                idList.add(el.tagName());
            } else {
                log.info("id:" + el.attr("id"));
            }
        }

正确找到具有id的元素。我的问题是,如果他们有id,我只想扫描start元素。我可以用Jsoup处理这个吗?

1 个答案:

答案 0 :(得分:2)

我不确定我是否正确理解了您的问题,但我认为您只想选择所有没有id属性的元素。如果是这样,这应该有效:

doc.select("*:not([id])")

jsoup网站上有一个full list of selectors

更新

以下是一个完整的例子:

import org.jsoup.Jsoup;
import org.jsoup.nodes.*;

public class Soup {
  public static void main(String[] args) {
    String data = "<table border=\"0\" cellpadding=\"0\" cellspacing=\"0\"> <tr> <td class=\"reportheader\" align=\"left\" nowrap width=\"720\">Outside my Dreams</td> </tr> </table>";
    Document doc = Jsoup.parse(data);
    StringBuilder tags = new StringBuilder();
    for (Element el : doc.select("body *:not([id])")) {
      tags.append(el.tagName());
      tags.append(' ');
    }
    System.out.println(tags);
  }
}

在我的机器上运行上述操作会为我提供此输出: table tbody tr td

请注意,我稍微更改了查询:"body *:not([id])"。在前面添加body会排除Jsoup在解析<html><title></title><body> ... </body></html>字符串中的部分文档时自动添加的data