Jsoup将HTML与自动关闭的文本区域弄混了

时间:2019-05-24 16:08:55

标签: jsoup

我正在使用Jsoup稍微更改HTML,并且该HTML的某些部分由网站的发布者注入。 解析HTML时发生了奇怪的事情。 每当它有一个自动关闭的文本区域(我知道这是无效的,但是发布者有时会这样做)时,以下元素就会被转义,因为它们是文本区域的一部分,例如:

<div>
<div>
<textarea/>
</div>
</div>

成为

<div>
<div>
<textarea></textarea>
&lt;/div&gt;
&lt;/div&gt;

我希望它会变成:

<div>
<div>
<textarea></textarea>
</div>
</div>

有什么办法可以避免这种行为吗?

1 个答案:

答案 0 :(得分:0)

使用XML解析器,因此Jsoup不会尝试修复HTML语法。

Document doc = Jsoup.parse("<div><div><textarea/></div></div>", "", Parser.xmlParser());