如何完全删除html并获取剩余的文本
'Abdulsalami</title><style>.ag8o{position:absolute;clip:rect(434px,auto,auto,434px);}</style><div class=ag8o>Spending time doing you <a href=http://arr'
我想获得'Abdulsalami'
这样做的正则表达式是什么?
答案 0 :(得分:0)
单个RegEx无法匹配HTML的所有变体。
尝试使用Jsoup。
public static String html2text(String html) {
return Jsoup.parse(html).text();
}
或Jericho Html解析器(您可以从这里下载 - http://jericho.htmlparser.net/docs/index.html)
Source htmlSource = new Source(htmlText);
Segment htmlSeg = new Segment(htmlSource, 0, htmlSource.length());
Renderer htmlRend = new Renderer(htmlSeg);
System.out.println(htmlRend.toString());