Jsoup clean方法留下元素

时间:2016-01-19 09:41:18

标签: java html jsoup

我尝试使用此代码完全从HTML元素中清除文本:

Jsoup.clean(preparedText, Whitelist.none())

不幸的是,它没有删除 元素。我认为它将用空格替换它,就像它用中间点(“·”)替换·一样。

我应该使用其他方法来实现此功能吗?

1 个答案:

答案 0 :(得分:2)

来自Jsoup docs

  

白名单定义允许通过的HTML(元素和属性)   清洁工。其他一切都被删除了。

因此白名单只关注标签和属性。  既不是标记也不是属性。它只是一个特殊字符的html编码。如果您想要从编码转换为普通文本,您可以使用例如优秀的apache commons lang library或使用Jsoup unescapeEntities method

System.out.println(Parser.unescapeEntities(doc.toString(), false));

<强>附录:

解析html时,已经发生从&middot;到“·”的转换。它似乎与清洁方法没有关系。