我基本上需要解析一些格式奇怪的HTML。
它可能包裹在锚标签中,也可能没有。
例如
<a href="something">capture text</a> ...some other html
或者只是
capture text ...some other html
我该如何构建一个模式,以至于不知道忽略<a href="something">
以及随后的后续</a>
?理想情况下,能够将“捕获文本”部分捕获为命名组。我已经尝试过执行任一模式,但是它抱怨命名组相同,是否有解决方法?
Regex tester带有单元测试,该单元测试显示正则表达式是否可以在相同组标识符的情况下匹配和不匹配标签。