如何配置Nutch只抓取搜索列表中的URL? (不需要爬行)

时间:2013-01-10 03:07:41

标签: solr nutch

我有一个url seedlist包含超过100000个url。我知道nutch不仅会抓取种子列表中的网址,还会抓取网站内的任何网址链接。但是,我想知道有没有办法阻止这种行为?因此,只需要抓取种子列表中指定的URL。

2 个答案:

答案 0 :(得分:3)

在nutch-site.xml配置中,将“db.ignore.external.links”属性设置为true。

这将忽略注入列表之外的域的任何URL。

答案 1 :(得分:0)

如果您使用crawl command检查深度参数。

  

-depth depth表示应该爬网的根页面的链接深度。

使用此功能,您可以控制Nutch要爬行的深度。值为1可能会将其限制为仅基页。