我正在尝试从Java字符串中解析html标记,并且使用下面的Jsoup解析方法可以正常工作。唯一的一点是,当我调用.text方法时,它会删除换行符("\n")
。我想保留那些但仍然有方法返回一个字符串,任何想法?
private static String stripHTML(String html) {
return Jsoup.parse(html).text();
}
答案 0 :(得分:1)
新行与HTML中的空格(或连续的空格或制表符)没有任何不同。你拔出的东西没有任何语义含义。 < p为H.和另一方面< br /> ...