如何使用jsoup </p>选择一组特定的<p>标签

时间:2012-11-21 07:36:50

标签: java jsoup

我有以下要解析的HTML代码   screenshot

任何人都可以告诉我如何只选择框中的p标签。 或者任何人都可以告诉我如何删除红线下方的标签?此外,

中还有大量不需要的p标签

div class =“SPOSTARBUST-Related-Posts”

document.select("div.SPOSTARBUST-Related-Posts").remove();

似乎没有做任何事情

2 个答案:

答案 0 :(得分:1)

您应该使用以下选择器

div[id=content] > p
像这样

    final String html = "<head><body/><div id=\"content\"><p>a</p><p>b</p><div><p>v</p></div></div></html>";
    final Document doc = Jsoup.parse(html);

    final Elements ps = doc.select("div[id=content] > p");
    System.out.println(ps.size());

这将返回p的所有直接 div[id="content"]子女。

答案 1 :(得分:1)

如果您只想在红色框中选择<p>标签,可以看到您可以找到的唯一标准是style="text-align: justify"

使用JSoup selector syntax你可以这样做

Elements paragraphs = doc.select("p[style*=justify]");