在不使用Java破坏HTML的情况下,将字符串子串为90%

时间:2012-01-10 17:48:50

标签: java html string substring

什么是创建方法的最佳解决方案,该方法将采用包含HTML的字符串,并且会删除最后一个,例如10%的字符串,但不会破坏任何HTML标记。

正文和标题标记不是HTML字符串的一部分。

此外,舍入应该向上发生,所以如果最后的10%会缩小到5%,如果HTML应该保持不变,那么方法应该减少HTML的乞讨并执行15%的削减,这将是乞讨标签。

我正在考虑使用Jsoup。问题是字符串可能不被HTML元素包围。它可能只是一个包含几个链接的文本。

1 个答案:

答案 0 :(得分:3)

我认为Jsoup是正确的方法,从页面底部删除元素并在每一步检查其字符串长度,直到达到令人满意的数字。

要逐个删除元素,可以使用remove method,然后将原始字符串长度与HTML文档的当前字符串长度进行比较。我没有看到任何效率问题。