如何使用JSOUP解析包含html的文件?

时间:2018-09-27 17:00:38

标签: java web jsoup

我有包含HTML的文件,并且我试图解析该文件,然后标记正文文本。 我是通过以下方式实现的:

<p>

以上代码可以正常工作,但问题是出现在html标签之外且没有任何标签的TEXT也被打印为body标签的一部分。 我需要找到一种方法来阻止读取HTML标记之外的文本 帮助这是一个时间敏感的问题!

1 个答案:

答案 0 :(得分:0)

您可以选择和删除文档中不需要的元素。

 doc.select("body > :matchText").remove();

上面的语句将删除所有text-node,它们是body-element的直接子代。 :matchText选择器是一个相当新的选择,因此请确保使用某种程度上的JSoup最新版本(肯定是1.11.3有效,而1.10.2无效)。

https://jsoup.org/cookbook/extracting-data/selector-syntax

上找到有关选择器语法的更多信息