如何在字符串java中

时间:2015-08-18 04:40:08

标签: java html regex string

我想从HTML String中以纯字符串格式提供内容。

我原来的字符串是这样的:

1. <br/>Test Plan: YTL Test Plan for Release 1<br/><br/>Test Case: Clarity TC - Provisioning 1<br/><br/>Test Script: to test provisioning ADD option<br/><br/>Project Area: CLM Test (Quality Management)
2. Failing Test Case &quot;Clarity TC - Provisioning 1&quot;

现在,我想替换所有的html字符并以字符串格式保存。

目前我正在使用 StringEscapeUtils.unescapeHtml(String)来解决我的目的,它给我的输出如下

1. <br/>Test Plan: YTL Test Plan for Release 1<br/><br/>Test Case: Clarity TC - Provisioning 1<br/><br/>Test Script: to test provisioning ADD option<br/><br/>Project Area: CLM Test (Quality Management)
2. Failing Test Case "Clarity TC - Provisioning 1"

所以它适用于我的第二个字符串但不适用于第一个字符串

我们可以在某些课程的帮助下实现这一目标吗?

我不想使用正则表达式或替换方法而不是还有其他类需要做什么吗?

2 个答案:

答案 0 :(得分:0)

1)使用Jsoup类: -

public static String html2String(String html) {
    return Jsoup.parse(html).text();
 }

2)使用正则表达式,您可以执行以下操作: -

String str="<br/>Test Plan: YTL Test Plan for Release 1<br/><br/>Test Case: Clarity TC - Provisioning 1<br/><br/>Test Script: to test provisioning ADD option<br/><br/>Project Area: CLM Test (Quality Management)";
  String rx="\\<[^>]*>";
  System.out.println(str.replaceAll(rx, ""));

3)使用com.google.gdata.util.common.html。HtmlToText,如下所示: -

  HtmlToText.htmlToPlainText(string)

答案 1 :(得分:0)

我遇到了和你一样的问题。 而不是使用br标签我用过的新线路&#39; \ n&#39;为了保持文本格式,我将这些样式添加到显示此文本的元素中:

white-space: pre-wrap;