Question

正则表达式获取第一个结束标记“＆gt;”后的所有内容

之前遇到过

"<a href " till the end.

我该怎么做？我不擅长正则表达式：/

例如：

<img class="abc" src="abc.jpg"> blah blah blah&nbsp;<a 
href="http://en.wikipedia.org/wiki">abc defg hijk lmnop</a>&nbsp; blah

预期产出：

blah blah blah abc defg hijk lmnop blah

Answer 1

试试这个：

htmls = htmls.replaceAll(".*?>(?=.*?<a href)", "");

这意味着删除所有内容，直到结束标记（位于第一个<a href

之前）

Answer 2

简而言之，您无法使用正则表达式解析HTML，因为HTML不是常规语言。有关完整讨论，请参阅here。