我有包含这种内容的HTML代码:
<div>
<div><!-- There is useful content --></div>
<br>
<br>
<br>
THIS IS SAMPLE TEXT
<br>
THIS IS SAMPLE TEXT 2
</div>
我需要删除THIS IS SAMPLE TEXT
和THIS IS SAMPLE TEXT 2
。
我知道如何删除特定标记内的文本,但是当我尝试将root div的文本设置为空字符串时,所有其他有用的标记也将消失。
如何在根标记内删除没有标记的文本,而不影响其他标记?
答案 0 :(得分:2)
试试这个:
Element myOuterDiv = myDocument.select("div").first();
for (TextNode textNode : myOuterDiv.textNodes()) {
textNode.remove();
}
System.out.println(myOuterDiv);
打印哪些:
<div>
<div>
<!-- There is useful content -->
</div>
<br>
<br>
<br>
<br>
</div>