使用Kimonolabs提供的软件进行正则表达式处理

时间:2014-09-09 12:07:52

标签: regex web-scraping

我正在尝试使用Kimonolabs提供的软件来获取网站上的医生列表。我遇到的问题是我从网站上抓取的字符串有一个地址和一个由<br>标记分隔的邮政编码。

Kimono将此语法用于正则表达式:

/^()(.*?)()$/ 

第一组=&gt;在所需内容的左侧

第二组=&gt;这是应该提取的内容

第三组=&gt;在所需内容的右侧

具体来说,这是我尝试过的正则表达式:

/^()(.*?)(\<)$/ 
/^()(.*?)(\n)$/
/^()(.*?)(\r)$/

而且,这是我要抓的网站:http://www.jameda.de/

这是我尝试通过正则表达式解析的示例行:

<p>Altlaufstr. 22<br>85635 Höhenkirchen-Siegertbrn</p>

但是,我尝试过的每个正则表达式模式都没有捕获任何数据。我无法理解正则表达式,因为我发现我发现的参考资料非常复杂。

1 个答案:

答案 0 :(得分:1)

您似乎正在尝试匹配德国邮政编码,这些邮政编码总是5位数。这样就可以了:

/(<br\/?>)(\d{5})()/

故障:

<br\/?>表示必须在<br>标记前面(带或不带斜杠)

\d{5}是5位

注意:省略默认和服正则表达式中的^$锚点,因为此正则表达式并未尝试匹配整个文本 - 只是ZIP。