我使用Jsoup来解析任意HTML并且到目前为止它一直运行良好,但我遇到了问题。当给出以下HTML时,Jsoup返回无效的HTML(删除了无关的位):
<div>
<a href=''>
<img src='' alt='The problem is here "I'm not sure what to do"'>
</a>
</div>
我的alt
标记用单引号括起来,其中包含未转义的单引号和双引号,遗憾的是我无法控制输入。当我通过Jsoup.parse
运行时,我得到了这个:
<div>
<a href="">
<img src="" alt="The problem is here "I" m not sure what to do"'>
</a>
</div>
img
标签末尾的那两个未公开的引文让我感到困惑。我希望Jsoup会给我一些以下内容:
<div>
<a href="">
<img src="" alt="The problem is here "I'm not sure what to do"">
</a>
</div>
是否有可能使这成为可能?
答案 0 :(得分:0)
jsoup的主页广告:
jsoup实现了WHATWG HTML5规范,并将HTML解析为与现代浏览器相同的DOM。
......这就是它正在做的事情。
所以,不,你不能按照你想要的方式解析代码。
在将内容传递给jsoup之前,您需要修复错误。
答案 1 :(得分:0)
你可以试试这个:
<div>
<a href="">
<img src="" alt="The problem is here "I'm not sure what to do"">
</a>
</div>