如何删除String的HTML元素?

时间:2014-01-09 06:56:44

标签: java javascript html

我想删除Java中的字符串HTML。

<hr><b><strong>Task Details</strong></b><hr><b>Date Created: </b> 01/06/2014 07:55pm<br><b>Date Modified: </b> 01/06/2014 07:55pm<br><b>Assigned to: </b> Administrator<br><b>Created By: </b> Administrator<br><b>Status: </b> Not Started<br><b>Description: </b> Test Description<br>.

以上是我的字符串,我想删除HTML标记。

2 个答案:

答案 0 :(得分:4)

也许这会奏效:

String noHTMLString = htmlString.replaceAll("\\<.*?>","");

它使用正则表达式删除字符串中的所有HTML标记。

更具体地说,它从字符串中删除所有类似XML的标记。所以&lt; 1234&gt;即使它不是有效的HTML标记,也会被删除。但它对大多数意图和紫癜都有好处。

希望这有帮助。

Jsoup.

实际上很简单
public static String html2text(String html) {
    return Jsoup.parse(html).text();
}

答案 1 :(得分:1)

您可以使用Jsoup库。

String str="<h3>My Text</h3>";
System.out.println(Jsoup.parse(str).text());

以上代码剥离所有htms标记并将文本作为输出