好吧,我一直在弄Nutch并且需要知道我编辑的crawl-urlfilter.txt
文件中的哪个参数,所以蜘蛛有无边界。换句话说,我希望它在指定域之外的Web上漫游。
我假设它与此行有关,但我不知道如何正确编辑它以按照我的意愿执行:
+^http://([a-z0-9]*\.)*urlz.net/
答案 0 :(得分:0)
我对Nutch并不熟悉,但这只是一个正则表达式。
+^http://([a-z0-9\.])*
可能会正常工作,或其中的一些变化。它只是匹配一个模式。我上面写的那个应该匹配以http://开头的任何东西,然后是任意数量的字母,数字或点。