如何停止循环正则表达式

时间:2011-06-20 12:43:05

标签: regex html-parsing

我正在尝试从包含

等源信息的网页上的表中提取信息
    team.php?t=4636&s=98700">Memphis</a>          CUSA   1-11   117 ...
    team.php?t=66&s=98700">Akron</a>            MAC    ...
etc

在使用正则表达式

之后,我得到了我所知的信息
team.php.*?>(.*?)<

问题是网页上还有另一个类似的表格,这个信息也起来了我可以用一些介入文本来阻止这个过程,比如说'表2',但我不知道如何将它合并到表达

TIA

继续下面的评论。最初的 is here我只想提取团队名称大约三分之一,俄勒冈州,奥本等,没有列在列底部的会议

我创建了&lt; a href =“http://www.premiersoccerstats.com/collegerankingsxml.htm”&gt; xml dom和 parsed it最好我可以展示大学和链接,但这并没有给我一些我所追求的大学

1 个答案:

答案 0 :(得分:0)

此正则表达式适用于网站上文字的复制粘贴:(\d+ [A-Z][a-z](?:[^\d\s]\s?)+)

如果您想避免三次获取值,请使用循环,i从1开始:" ("+ i +" [A-Z][a-z](?:[^\d\s]\s?)+)"