Question

我正在使用Jsoup稍微更改HTML，并且该HTML的某些部分由网站的发布者注入。解析HTML时发生了奇怪的事情。每当它有一个自动关闭的文本区域（我知道这是无效的，但是发布者有时会这样做）时，以下元素就会被转义，因为它们是文本区域的一部分，例如：

<div>
<div>
<textarea/>
</div>
</div>

成为

<div>
<div>
<textarea></textarea>
&lt;/div&gt;
&lt;/div&gt;

我希望它会变成：

<div>
<div>
<textarea></textarea>
</div>
</div>

有什么办法可以避免这种行为吗？

Answer 1

使用XML解析器，因此Jsoup不会尝试修复HTML语法。

Document doc = Jsoup.parse("<div><div><textarea/></div></div>", "", Parser.xmlParser());