是否可以让Nutch只爬下某个文件路径?

时间:2013-09-11 01:15:51

标签: apache web-crawler nutch

我正在尝试使用Apache nutch只抓取某个文件路径。例如,如果我的网址是:

www.foo.com/shoes /

我想继续抓取网址:www.foo.com/shoes/nike和www.foo.com/shoes/addidas以及www.foo.com/shoes/addidas/soccer但不抓取其他目录,如: www.foo.com/clothes或www.foo.com/watches。无论如何,荷兰人能做到吗?

1 个答案:

答案 0 :(得分:0)

你唯一要做的就是写一个与你的模式匹配的正则表达式,比如

  

+。www.foo.com/shoes /

并使用

跳过其他所有内容
  

- *

crawl-urlfilter.txt

的末尾