使用Lookahead使用正则表达式匹配字符串

时间:2008-12-09 10:41:03

标签: c# html regex

我需要使用正则表达式来匹配一个字符串holiding html以取出所有嵌套的跨度,我假设我假设有一种方法可以使用正则表达式执行此操作,但整个上午都没有成功。

因此,对于

的示例输入字符串
<DIV id=c445c9c2-a02e-4cec-b254-c134adfa4192 style="BORDER-RIGHT: #000000 1px solid; BORDER-TOP: #000000 1px solid; BORDER-LEFT: #000000 1px solid; BORDER-BOTTOM: #000000 1px solid; BACKGROUND-COLOR: #eeeeee">
<SPAN id=b8db8cd1-f600-448f-be26-2aa56ea09a9c>
<SPAN id=304ccd38-8161-4def-a557-1a048c963df4>
<IMG src="http://avis.co.uk/Assets/build/menu.gif">
</SPAN>
</SPAN>
<SPAN id=bc88c866-5370-4c72-990b-06fbe22038d5>
<SPAN id=55b88bbe-15ca-49c9-ad96-cecc6ca7004e>UK<BR></SPAN>
</SPAN>
<SPAN id=52bb62ca-8f0a-42f1-a13b-9b263225ff1d>
<SPAN id=0e1c3eb6-046d-4f07-96c1-d1ac099d5f1c>
<IMG src="http://avis.co.uk/Assets/build/menu.gif">
</SPAN>
</SPAN>
<SPAN id=4c29eef2-cd77-4d33-9828-e442685a25cb>
<SPAN id=0d5a266a-14ae-4a89-9263-9e0ab57f7ad2>Italy</SPAN>
</SPAN>
<SPAN id=f0a72eea-fddd-471e-89e6-56e9b9efbece>
<SPAN id=b7d9ada7-ade0-49fe-aa5f-270237e87c2b>
<IMG src="http://avis.co.uk/Assets/build/menu.gif">
</SPAN>
</SPAN>
<SPAN id=7604df94-34ba-4c89-bf11-125df01731ff>
<SPAN id=330d6429-4f1b-46a2-a485-9001e2c6b8c1>Netherlands</SPAN>
</SPAN>
<SPAN id=a18fb516-451e-4c32-ab31-3e3be29235f6>
<SPAN id=6c70238d-78f9-468f-bb8d-370fff13c909>
<IMG src="http://avis.co.uk/Assets/build/menu.gif">
</SPAN>
</SPAN>
<SPAN id=5a2465eb-b337-4f94-a4f8-6f5001dfbd75>
<SPAN id=47877a9e-a7d5-4f13-a41e-6948f899e385>Malta &amp; Gozo

我想得到每个外跨度及其包含的跨度,所以在上面的文本中应该有八个结果

任何帮助都乐意接受

4 个答案:

答案 0 :(得分:5)

再次use an HTML parser走DOM:正则表达式永远不会足够强大。

答案 1 :(得分:4)

实际上不可能使用标准正则表达式解决这个问题,因为它们基本上在Chomsky hierarchy(有限状态自动机)中实现了类型3语法,而你至少需要一个类型2语法(某种堆栈或递归) )正确识别任意嵌套结构。

但是,如果你限制了最大可能的嵌套级别,那么它可能是可能的,但我仍然怀疑regexp是否是最好的解决方案。

答案 2 :(得分:1)

试试这个:

@"(?is)<SPAN\b[^>]*>\s*(<SPAN\b[^>]*>.*?</SPAN>)\s*</SPAN>"

这与PhiLho的正则表达式基本相同,只是它允许两端标记之间的空格。我还必须添加SingleLine / DOTALL修饰符以容纳匹配文本中的行分隔符。我不知道这些变化是否真的有必要; OP公布的样本数据全部在一行,但PhiLho将其分解(从而打破了自己的正则表达式)。

答案 3 :(得分:0)

基本上,我同意上述建议,使用正则表达式来解析HTML是要求在某些时候让代码破坏奇怪的合法HTML结构(更不用说浏览器接受的格式错误的HTML)。找到并使用一个好的HTML解析器可以在很多方面获得回报......

现在,我务实(我无法抗拒一点正则表达式挑战......)有时候我使用RE来对付机器生成的HTML(通常是导出功能),因为我知道我看到的结构不太可能改变,与手工生成的页面不同,作者可以在其中进行拼写错误...这主要是为了快速攻击,如果输出发生变化我可以适应。

在您的情况下,HTML非常规则,线性且可预测,因此RE非常简单。我给Java代码是因为我不知道C#,但是适应应该是微不足道的。

Pattern p = Pattern.compile("(<SPAN id.*?<SPAN id.*?</SPAN></SPAN>)");
Matcher m = p.matcher(html);
while (m.find())
{
  System.out.println(m.group(1));
}

HTH。