我有包含HTML的文件,并且我试图解析该文件,然后标记正文文本。 我是通过以下方式实现的:
<p>
以上代码可以正常工作,但问题是出现在html标签之外且没有任何标签的TEXT也被打印为body标签的一部分。 我需要找到一种方法来阻止读取HTML标记之外的文本 帮助这是一个时间敏感的问题!
答案 0 :(得分:0)
您可以选择和删除文档中不需要的元素。
doc.select("body > :matchText").remove();
上面的语句将删除所有text-node,它们是body-element的直接子代。 :matchText选择器是一个相当新的选择,因此请确保使用某种程度上的JSoup最新版本(肯定是1.11.3有效,而1.10.2无效)。
上找到有关选择器语法的更多信息