我尝试使用此代码完全从HTML元素中清除文本:
Jsoup.clean(preparedText, Whitelist.none())
不幸的是,它没有删除
元素。我认为它将用空格替换它,就像它用中间点(“·”)替换·
一样。
我应该使用其他方法来实现此功能吗?
答案 0 :(得分:2)
来自Jsoup docs:
白名单定义允许通过的HTML(元素和属性) 清洁工。其他一切都被删除了。
因此白名单只关注标签和属性。
既不是标记也不是属性。它只是一个特殊字符的html编码。如果您想要从编码转换为普通文本,您可以使用例如优秀的apache commons lang library或使用Jsoup unescapeEntities method:
System.out.println(Parser.unescapeEntities(doc.toString(), false));
<强>附录:强>
解析html时,已经发生从·
到“·”的转换。它似乎与清洁方法没有关系。