应用错误收集

如何配置Nutch只抓取搜索列表中的URL？（不需要爬行）

时间：2013-01-10 03:07:41

标签： solr nutch

我有一个url seedlist包含超过100000个url。我知道nutch不仅会抓取种子列表中的网址，还会抓取网站内的任何网址链接。但是，我想知道有没有办法阻止这种行为？因此，只需要抓取种子列表中指定的URL。

2 个答案:

答案 0 :(得分：3)

在nutch-site.xml配置中，将“db.ignore.external.links”属性设置为true。

这将忽略注入列表之外的域的任何URL。

答案 1 :(得分：0)

如果您使用crawl command检查深度参数。

-depth depth表示应该爬网的根页面的链接深度。

使用此功能，您可以控制Nutch要爬行的深度。值为1可能会将其限制为仅基页。