如何从JSoup'Document'中删除不间断的空格?

时间:2011-08-12 01:32:12

标签: java html jsoup html-entities

如何删除这些:

<td>&nbsp;</td>

<td width="7%">&nbsp;</td>

来自我的JSoup'Document'?我尝试了很多方法,但这些不间断的空格字符与普通的JSoup表达式或选择器都不匹配。

1 个答案:

答案 0 :(得分:13)

Java实体&nbsp;Unicode character NO-BREAK SPACE U+00A0)可以用Java \u00a0表示。假设您要删除包含该字符的每个元素作为自己的文本(因此不是您在评论中所说的每个),那么以下内容应该有效:

document.select(":containsOwn(\u00a0)").remove();

如果您的意思是删除整个,那么您最好的选择就是逐行扫描HTML。