如何删除这些:
<td> </td>
或
<td width="7%"> </td>
来自我的JSoup'Document'?我尝试了很多方法,但这些不间断的空格字符与普通的JSoup表达式或选择器都不匹配。
答案 0 :(得分:13)
Java实体
(Unicode character NO-BREAK SPACE U+00A0)可以用Java \u00a0
表示。假设您要删除包含该字符的每个元素作为自己的文本(因此不是您在评论中所说的每个行),那么以下内容应该有效:
document.select(":containsOwn(\u00a0)").remove();
如果您的意思是删除整个行,那么您最好的选择就是逐行扫描HTML。