如何使用Jsoup从html正文文本中排除任何锚元素?

时间:2016-03-29 11:20:47

标签: java html jsoup

Document doc=Jsoup.connect(url).userAgent("Mozilla/5.0 +http://www.google.com/bot.html)").timeout(100000).get();
data.add(doc.body().text());

这给了我包含超链接文本或链接文本的文本,但我不需要。我只想要纯文本,例如<p><b>等标签或没有任何标签的文字。

2 个答案:

答案 0 :(得分:1)

如果您只想删除所有a代码,只需selectremove

doc.select("a").remove();

您可以添加更多要删除的元素,方法是将它们添加到select

doc.select("a, div, script").remove();

答案 1 :(得分:0)

请改为尝试:

for(Element e : doc.body().select("*:not(a)")) {
    data.add(e.ownText());
}

您可以使用下面的CSS查询排除其他元素:

*:not(a, p, div)