荷兰爬行路径

时间:2011-08-22 18:52:32

标签: nutch

我想知道如何让nutch抓取不仅是我指定的域,还有我指定的域内的dir路径。我知道您可以在regex-urlfilter.txt

上配置此信息

1 个答案:

答案 0 :(得分:2)

这应该只抓取您想要的域/路径:

+.*www\.domain\.com/yourpath/.*  
#skip everything else  
-.*