正则表达式,用于标识不应嵌套的锚标记

时间:2010-08-18 12:24:59

标签: java regex

从html源代码我将识别不应嵌套的锚标记。

例如:

<a href="http://www.abc.com">abc<a href="http://www.dbc.com">dbc</a>

从第一场比赛开始,它应该返回

<a href="http://www.abc.com">abc

在后续查找

<a href="http://www.dbc.com>dbc</a>

虽然它没有嵌套,但发现它应该从open anchor标签返回到关闭锚标签。如果它是嵌套的,它应该将字符串从打开的锚标记返回到嵌套的开放锚标记的开头之前。

请帮忙。提前致谢

1 个答案:

答案 0 :(得分:3)

我建议使用JTidy。尽管它的名字是一个HTML解析器,它将处理正常表达式的所有边缘情况(毫不奇怪,HTML不常见)。