我正在使用80legs抓取网页以获取特定信息。所需信息在80legs中使用regex指定。例如,如果我只需要在我的网址列表中解析图片,我就指定<img.*?>
。
现在我还需要抓住div里面的任何锚点,它有类“rellink relarticle mainarticle”。例如:
<div class="rellink relarticle mainarticle">Main articles: <a href="/wiki/Theophrastus" title="Theophrastus">Theophrastus</a> and <a href="/wiki/Historia_Plantarum" title="Historia Plantarum">Historia Plantarum</a></div>
我尝试添加
<div class="rellink relarticle mainarticle">.*?<a.*?>
但是只能抓住div中的第一个锚点,即使有多个也是如此。是否可以更改此代码以获取div中的所有锚点?
答案 0 :(得分:1)
<div class="rellink relarticle mainarticle">.*?<a.*?>
匹配div的开始标记,后跟任意数量的字符,后跟 锚点。所以使用
<div class="rellink relarticle mainarticle">.*?(<a.*?>)+
代替。