我想从HTML String中以纯字符串格式提供内容。
我原来的字符串是这样的:
1. <br/>Test Plan: YTL Test Plan for Release 1<br/><br/>Test Case: Clarity TC - Provisioning 1<br/><br/>Test Script: to test provisioning ADD option<br/><br/>Project Area: CLM Test (Quality Management)
2. Failing Test Case "Clarity TC - Provisioning 1"
现在,我想替换所有的html字符并以字符串格式保存。
目前我正在使用 StringEscapeUtils.unescapeHtml(String)来解决我的目的,它给我的输出如下
1. <br/>Test Plan: YTL Test Plan for Release 1<br/><br/>Test Case: Clarity TC - Provisioning 1<br/><br/>Test Script: to test provisioning ADD option<br/><br/>Project Area: CLM Test (Quality Management)
2. Failing Test Case "Clarity TC - Provisioning 1"
所以它适用于我的第二个字符串但不适用于第一个字符串
我们可以在某些课程的帮助下实现这一目标吗?
我不想使用正则表达式或替换方法而不是还有其他类需要做什么吗?
答案 0 :(得分:0)
1)使用Jsoup类: -
public static String html2String(String html) {
return Jsoup.parse(html).text();
}
2)使用正则表达式,您可以执行以下操作: -
String str="<br/>Test Plan: YTL Test Plan for Release 1<br/><br/>Test Case: Clarity TC - Provisioning 1<br/><br/>Test Script: to test provisioning ADD option<br/><br/>Project Area: CLM Test (Quality Management)";
String rx="\\<[^>]*>";
System.out.println(str.replaceAll(rx, ""));
3)使用com.google.gdata.util.common.html。HtmlToText,如下所示: -
HtmlToText.htmlToPlainText(string)
答案 1 :(得分:0)
我遇到了和你一样的问题。 而不是使用br标签我用过的新线路&#39; \ n&#39;为了保持文本格式,我将这些样式添加到显示此文本的元素中:
white-space: pre-wrap;