使用正则表达式获取特定div中的所有锚点

时间:2013-02-28 12:13:38

标签: regex

我正在使用80legs抓取网页以获取特定信息。所需信息在80legs中使用regex指定。例如,如果我只需要在我的网址列表中解析图片,我就指定<img.*?>

现在我还需要抓住div里面的任何锚点,它有类“rellink relarticle mainarticle”。例如:

<div class="rellink relarticle mainarticle">Main articles: <a href="/wiki/Theophrastus"   title="Theophrastus">Theophrastus</a> and <a href="/wiki/Historia_Plantarum" title="Historia Plantarum">Historia Plantarum</a></div>

我尝试添加

<div class="rellink relarticle mainarticle">.*?<a.*?>

但是只能抓住div中的第一个锚点,即使有多个也是如此。是否可以更改此代码以获取div中的所有锚点?

1 个答案:

答案 0 :(得分:1)

<div class="rellink relarticle mainarticle">.*?<a.*?>匹配div的开始标记,后跟任意数量的字符,后跟 锚点。所以使用

<div class="rellink relarticle mainarticle">.*?(<a.*?>)+

代替。