如何让nutch履带爬行

时间:2010-11-27 09:58:51

标签: nutch

我对荷兰有一些疑问 当我使用维基时,我被要求编辑crawl-urlfilter.txt

+^http://([a-z0-9]*\.)*apache.org/

我被要求创建一个url文件夹和一个url列表...

我是否需要在crawl-urlfilter.txt和网址列表中创建所有链接...

1 个答案:

答案 0 :(得分:0)

是和否。

crawl-urlfiler.txt充当过滤器,因此只会在您的示例中抓取apache.org上的网址

url文件夹为“种子”网址提供了让抓取工具启动的位置。 因此,如果您希望抓取工具保留在一组网站中,您需要确保它们与筛选器具有正匹配...否则它将抓取整个网络。这可能意味着您必须将网站列表放在过滤器