如何使用Jsoup从html中提取指定长度的纯文本?

时间:2011-06-27 11:37:00

标签: java jsoup

我使用jsoup-1.5.2解析html标记字符串,我想从html字符串中提取纯文本并指定文本的长度,并保留完整的html标记。

examply:

html代码:

<p><span>Mike <u>stopp<b>ed</b></u> his work</span></p>

我想要结果:

指定文字长度= 4

result:<p><span>Mike</span></p>

指定文字长度= 10

result:<p><span>Mike <u>stopp</u></span></p>

指定文字长度= 12

result:<p><span>Mike <u>stopp<b>ed</b></u></span></p>

指定文字长度= 16

result:<p><span>Mike <u>stopp<b>ed</b></u> his</span></p>

我可以使用jsoup完成它吗?

1 个答案:

答案 0 :(得分:0)

遗憾的是,使用Element课并不简单。原因是类Element中的'text()'方法,“获取此元素及其所有子元素的组合文本”。这真的很烦人,因为你不能只获得单个元素的文本。您需要使用Elements类中的Elements.select(String).text()方法,并且可能使用通配符(如果可能)。此方法将返回所有匹配节点的“组合”文本。这将作为单个字符串返回,因此您可以在其上调用String的“length()”方法。