jsoup标签提取问题

时间:2010-08-06 05:41:01

标签: java jsoup


试验:实例
试验1:实施例1
 Elements size = doc.select("div:contains(test:)");

如何使用jsoup ..

从此html标记中提取值示例和示例1

1 个答案:

答案 0 :(得分:3)

由于这个HTML在语义上不够用于最终目的(一个<br>不能生孩子,:不是HTML),你不能用像Jsoup这样的HTML解析器。 HTML解析器无意执行特定文本提取/标记化的工作。

您可以做的最好的事情是使用Jsoup获取<div>的HTML内容,然后使用通常的java.lang.Stringjava.util.Scanner方法进一步提取。

这是一个启动示例:

String html = "<div style=\"height:240px;\"><br>test: example<br>test1:example1</div>";
Document document = Jsoup.parse(html);
Element div = document.select("div[style=height:240px;]").first();

String[] parts = div.html().split("<br />"); // Jsoup transforms <br> to <br />.
for (String part : parts) {
    int colon = part.indexOf(':');
    if (colon > -1) {
        System.out.println(part.substring(colon + 1).trim());
    }
}

这导致

example
example1

如果我是HTML作者,我本来会使用definition list。 E.g。

<dl id="mydl">
     <dt>test:</dt><dd>example</dd>
     <dt>test1:</dt><dd>example1</dd>
</dl>

这更具语义性,因此更易于解析:

String html = "<dl id=\"mydl\"><dt>test:</dt><dd>example</dd><dt>test1:</dt><dd>example1</dd></dl>";
Document document = Jsoup.parse(html);
Elements dts = document.select("#mydl dd");
for (Element dt : dts) {
    System.out.println(dt.text());
}