标签: solr nutch
我有一个url seedlist包含超过100000个url。我知道nutch不仅会抓取种子列表中的网址,还会抓取网站内的任何网址链接。但是,我想知道有没有办法阻止这种行为?因此,只需要抓取种子列表中指定的URL。
答案 0 :(得分:3)
在nutch-site.xml配置中,将“db.ignore.external.links”属性设置为true。
这将忽略注入列表之外的域的任何URL。
答案 1 :(得分:0)
如果您使用crawl command检查深度参数。
-depth depth表示应该爬网的根页面的链接深度。
使用此功能,您可以控制Nutch要爬行的深度。值为1可能会将其限制为仅基页。