Question

我有包含HTML的文件，并且我试图解析该文件，然后标记正文文本。我是通过以下方式实现的：

<p>

以上代码可以正常工作，但问题是出现在html标签之外且没有任何标签的TEXT也被打印为body标签的一部分。 我需要找到一种方法来阻止读取HTML标记之外的文本帮助这是一个时间敏感的问题！

Answer 1

您可以选择和删除文档中不需要的元素。

 doc.select("body > :matchText").remove();

上面的语句将删除所有text-node，它们是body-element的直接子代。：matchText选择器是一个相当新的选择，因此请确保使用某种程度上的JSoup最新版本（肯定是1.11.3有效，而1.10.2无效）。

上找到有关选择器语法的更多信息