正则表达式获取java中第一个关闭html标记后的所有内容

时间:2014-04-01 16:49:09

标签: java regex

正则表达式获取第一个结束标记“>”后的所有内容

之前遇到过
"<a href " till the end. 

我该怎么做?我不擅长正则表达式:/

例如:

<img class="abc" src="abc.jpg"> blah blah blah&nbsp;<a 
href="http://en.wikipedia.org/wiki">abc defg hijk lmnop</a>&nbsp; blah

预期产出:

blah blah blah abc defg hijk lmnop blah

2 个答案:

答案 0 :(得分:0)

试试这个:

htmls = htmls.replaceAll(".*?>(?=.*?<a href)", "");

这意味着删除所有内容,直到结束标记(位于第一个<a href

之前)

答案 1 :(得分:0)

简而言之,您无法使用正则表达式解析HTML,因为HTML不是常规语言。有关完整讨论,请参阅here