我有以下要解析的HTML代码
任何人都可以告诉我如何只选择框中的p标签。 或者任何人都可以告诉我如何删除红线下方的标签?此外,
中还有大量不需要的p标签div class =“SPOSTARBUST-Related-Posts”
但
document.select("div.SPOSTARBUST-Related-Posts").remove();
似乎没有做任何事情
答案 0 :(得分:1)
您应该使用以下选择器
div[id=content] > p
像这样
final String html = "<head><body/><div id=\"content\"><p>a</p><p>b</p><div><p>v</p></div></div></html>";
final Document doc = Jsoup.parse(html);
final Elements ps = doc.select("div[id=content] > p");
System.out.println(ps.size());
这将返回p
的所有直接 div[id="content"]
子女。
答案 1 :(得分:1)
如果您只想在红色框中选择<p>
标签,可以看到您可以找到的唯一标准是style="text-align: justify"
。
使用JSoup selector syntax你可以这样做
Elements paragraphs = doc.select("p[style*=justify]");