通过正则表达式从字符串中删除HTML

时间:2015-02-21 16:43:30

标签: regex

如何完全删除html并获取剩余的文本

'Abdulsalami</title><style>.ag8o{position:absolute;clip:rect(434px,auto,auto,434px);}</style><div class=ag8o>Spending time doing you <a href=http://arr'

我想获得'Abdulsalami'

这样做的正则表达式是什么?

1 个答案:

答案 0 :(得分:0)

单个RegEx无法匹配HTML的所有变体。

尝试使用Jsoup。

public static String html2text(String html) {
    return Jsoup.parse(html).text();
}

或Jericho Html解析器(您可以从这里下载 - http://jericho.htmlparser.net/docs/index.html

Source htmlSource = new Source(htmlText);
Segment htmlSeg = new Segment(htmlSource, 0, htmlSource.length());
Renderer htmlRend = new Renderer(htmlSeg);
System.out.println(htmlRend.toString());