我想知道jsoup是否有足够的智能来弄清楚如何用文本行周围的<br>
标签替换<p>
标签。例如,这里是文档中的文字:
Lorem ipsum dolor坐下来,精神上的精神。 Sed效率格言ex。 Fusce vestibulum lectus vitae diam venenatis,id scelerisque diam fermentum。 Cras iaculis,ipsum aliquam convallis fringilla,lacus augue pulvinar leo,sed ullamcorper eros metus vitae nunc。 Nam iaculis imperdiet quam nec pretium。在purus ullamcorper,sodales nibh non,mattis nisl的Cras。 Proin tincidunt增加了一个增强的eleifend venenatis。 Mauris ac urna vitae dolor placerat rutrum quis sem。 Maecenas laoreet fermentum consectetur。
&LT峰; br&GT;&LT峰; br&GT;
Aliquam feugiat augue vitae aliquam feugiat。 Pellentesque cursus turpis dolor,vitae tempor erat blandit nec。 Donec viverra mi id leo feugiat,id euismod orci congue。 Quisque nulla dolor,maximus pretium tincidunt vel,malesuada vel augue。 Curabitur fermentum,eros non commodo pharetra,libero ante molestie turpis,在ligtrum justo leo在ligula。 Proin scelerisque congue urna id pretium。 Donec pretium,ligula a tempor hendrerit,lacus augue molestie risus,sed sollicitudin dui massa at purus。 Phasellus venenatis odio iaculis cursus commodo。 Nullam porttitor nibh et viverra lobortis。 Quisque eu ligula lacinia,tempus risus ac,vulputate ex。 Ut scelerisque dignissim nisi vel dictum。在suscipit gravida pellentesque。
上面的文字没有任何段落标签......它纯粹是文本(或者html,因为锚,强,和em标签在整个过程中都使用),并且断开标签来分隔段落。
有没有办法告诉jsoup
:
<p>
开始Lorem
,在</p>
结束consectetur.
然后,我使用element.remove()
方法删除所有<br>
代码。