我必须处理一些无效的HTML文件,并且必须向某些标签添加属性,并且需要标签的开始和结束位置。因此,不能使用xml解析器,因为位置信息会丢失。
是否有可能防止jsoup修复“损坏的” HTML并且不添加其他标签?
示例:
<b><p><font>Some Text</b>Text</font></p>
JSOUP的输出是:
<b></b><p><b><font added=attribute>Some Text</font></b><font>Text</font></p>
但是我想要
<b><p><font added=attribute>Some Text</b>Text</font></p>