为nutch的regex-urlfilter.txt文件编写正则表达式

时间:2014-05-29 10:10:48

标签: regex nutch

我在使用regex-urlfilter.txt文件时遇到了一些问题。 我只想抓取在' .html'之前有号码的链接,应该很容易,但我无法正确使用...

以下是一个例子:

http://www.utiltrucks.com/annonce-occasion-camion-poids-lourd/marque-renault/modele-midliner/ref-71015.html http://www.utiltrucks.com/annonce-occasion-camion-poids-lourd/dpt-.html

我想抓住第一个链接。

我已尝试使用regex-urlfilter中的以下条目:

接受其他任何内容

+ http://www.utiltrucks.com/annonce-occasion.+?[0-9]+.html

我收到一条消息: 选择0条记录进行提取,退出...

有人知道如何解决这个问题吗?

2 个答案:

答案 0 :(得分:0)

请注意,您的网址过滤器也应该与您的种子网址匹配,否则它们会被过滤掉,因此nutch不会有任何机会解析它们并提取您想要的链接。

例如,如果您的种子文件包含此网址http://www.utiltrucks.com/home,那么您还应该在regex-urlfilter文件中添加一个条目,如下所示:

+ http://www.utiltrucks.com/home

对于从您的种子网址到您要从中提取链接的目标网页的路径中的所有网页,也应该这样做。

答案 1 :(得分:0)

您必须以

开头
+^(http|https)://www.example.com