Nutch网络蜘蛛,索引整个网络

时间:2011-03-16 01:39:30

标签: regex nutch

好吧,我一直在弄Nutch并且需要知道我编辑的crawl-urlfilter.txt文件中的哪个参数,所以蜘蛛有无边界。换句话说,我希望它在指定域之外的Web上漫游。

我假设它与此行有关,但我不知道如何正确编辑它以按照我的意愿执行:

+^http://([a-z0-9]*\.)*urlz.net/

1 个答案:

答案 0 :(得分:0)

我对Nutch并不熟悉,但这只是一个正则表达式。

+^http://([a-z0-9\.])*

可能会正常工作,或其中的一些变化。它只是匹配一个模式。我上面写的那个应该匹配以http://开头的任何东西,然后是任意数量的字母,数字或点。