Jsoup.parse返回无效的HTML

时间:2015-12-16 20:20:03

标签: html jsoup

我使用Jsoup来解析任意HTML并且到目前为止它一直运行良好,但我遇到了问题。当给出以下HTML时,Jsoup返回无效的HTML(删除了无关的位):

<div>
  <a href=''>
    <img src='' alt='The problem is here "I'm not sure what to do"'>
  </a>
</div>

我的alt标记用单引号括起来,其中包含未转义的单引号和双引号,遗憾的是我无法控制输入。当我通过Jsoup.parse运行时,我得到了这个:

<div>
  <a href="">
    <img src="" alt="The problem is here &quot;I" m not sure what to do"'>
  </a>
</div>

img标签末尾的那两个未公开的引文让我感到困惑。我希望Jsoup会给我一些以下内容:

<div>
  <a href="">
    <img src="" alt="The problem is here &quot;I'm not sure what to do&quot;">
  </a>
</div>

是否有可能使这成为可能?

2 个答案:

答案 0 :(得分:0)

jsoup的主页广告:

  

jsoup实现了WHATWG HTML5规范,并将HTML解析为与现代浏览器相同的DOM。

......这就是它正在做的事情。

所以,不,你不能按照你想要的方式解析代码。

在将内容传递给jsoup之前,您需要修复错误。

答案 1 :(得分:0)

你可以试试这个:

<div>
  <a href="">
    <img src="" alt="The problem is here &#34;I&#39;m not sure what to do&#34;">
  </a>
</div>