Nutch - 为什么我的网址排除不排除那些网址?

时间:2013-07-19 16:40:21

标签: regex apache solr nutch

惊喜!我有另一个Apache Nutch v1.5问题。因此,在通过Nutch将我们的网站抓取并索引到Solr时,我们需要能够排除任何属于特定路径的内容。

所以说我们有我们的网站:http://oursite.com/我们有一条路径,我们不希望在http://oursite.com/private/索引

http://oursite.com/文件中有seed.txt+^http://www.oursite.com/([a-z0-9\-A-Z]*\/)*文件中有regex-urlfilter.txt

我认为在-.*/private/.*文件中放置:regex-urlfilter.txt会排除该路径及其下的任何内容,但抓取工具仍然会在/private/路径下获取和索引内容。

我需要在服务器上进行某种重启,比如Solr?或者我的正则表达式实际上不是正确的方法吗?

感谢

1 个答案:

答案 0 :(得分:1)

我的猜测是第一个正则表达式接受了网址,第二个网格不再被检查。如果要拒绝URL,请将其正则表达式放在列表中。