如何使用JSoup提取html代码中的特定文本

时间:2019-01-29 20:52:20

标签: java jsoup

我有一个网站,我想从中提取一些数据。我想用JSoup在第二行(a元素)中提取8a。我不能使用Regex,因为有时8a只是2或7c +,并且这些相同的值也可以在a标记之间的文本中。想法?

{{1}}

1 个答案:

答案 0 :(得分:0)

您可以使用Jsoup css选择器提取特定信息。

https://jsoup.org/cookbook/extracting-data/selector-syntax

@Test
public void extract8a() {
    Document doc = Jsoup.parse("<div class=\"vsr\"> \n" +
            " <a href=\"/91.1/303535.html\">L'Américain (intégral)</a> 8a \n" +
            " <span class=\"ag\">7c+</span> \n" +
            " <em>Tony Fouchereau</em> \n" +
            " <span class=\"btype\">traversée d-g, surplomb, départ assis</span> \n" +
            " <span class=\"glyphicon glyphicon-camera\" aria-hidden=\"true\"></span> \n" +
            " <span class=\"glyphicon glyphicon-film\" aria-hidden=\"true\"></span> \n" +
            "</div>");
    System.out.println(doc.select("div.vsr").first().ownText());
}