Question

当我用Jsoup解析这段代码时：

<p>
<table>[...]</table>
</p>

Jsoup回归：

<p></p>
<table>[...]</table>

这是一个错误吗？我该如何解决这个问题？

Answer 1

我认为这与你的例子不是“有效”的HTML有关。我相信一个表不能存在于p标签中。 Jsoup可能正在执行正确的HTML。

Answer 2

jsoup非常聪明。如果你使用它的默认解析方法，它会将你的输入文本改为有效的html conent。

Document doc = Jsoup.parse(html);

实际上，jsoup可以处理类似xml的文本（当然，包括html和xml）。您可以尝试使用follwing方法来解析类似xml的文本。它不会改变你的输入，并按原样解析输入。

Document doc = Jsoup.parse(html, "", Parser.xmlParser());