我正在使用Jsoup稍微更改HTML,并且该HTML的某些部分由网站的发布者注入。 解析HTML时发生了奇怪的事情。 每当它有一个自动关闭的文本区域(我知道这是无效的,但是发布者有时会这样做)时,以下元素就会被转义,因为它们是文本区域的一部分,例如:
<div>
<div>
<textarea/>
</div>
</div>
成为
<div>
<div>
<textarea></textarea>
</div>
</div>
我希望它会变成:
<div>
<div>
<textarea></textarea>
</div>
</div>
有什么办法可以避免这种行为吗?
答案 0 :(得分:0)
使用XML解析器,因此Jsoup不会尝试修复HTML语法。
Document doc = Jsoup.parse("<div><div><textarea/></div></div>", "", Parser.xmlParser());