使用jsoup

时间:2017-05-26 06:55:21

标签: java parsing jsoup html-parsing

我想解析一些html页面,例如:

<div class="class_Name">
"Unknown text"
<img src="link_To_Image">
"Unknown text"
</div>

使用此代码

Element element = document.select("div.class_Name").first();
Elements elements = element.children();

但元素只存储嵌套标签,因此它只存储图像 我应该怎么做正确的解析?

1 个答案:

答案 0 :(得分:0)

如果我理解您的请求,您正在寻找收集封闭div的所有内部节点的方法。如果是,则需要致电Node.childNodes

    String input = "<div class=\"class_Name\">\n\"Unknown text\"\n"
        + "<img src=\"link_To_Image\">\n\"Unknown text\"\n</div>";

    Document doc = Jsoup.parse(input);
    Element element = doc.select("div.class_Name").first();

    List<Node> nodes = element.childNodes();
    for (Node n : nodes) {
        System.out.println(n);
    }

将打印

 "Unknown text" 
 <img src="link_To_Image">
 "Unknown text" 

希望它有所帮助!