如何给nutch 2.3爬行深度

时间:2015-08-08 11:52:39

标签: web-crawler nutch

在v2.2.1中有一个nutch crawl命令,您可以在其中为爬行提供深度

  

bin / nutch crawl [-solr] [-dir d] [-threads n]   [-dethth i] [-topN N]

如何为nutch v2.3做同样的事情?

2 个答案:

答案 0 :(得分:1)

脚本的文档没有更新,我认为那里的脚本与Nutch 1.4相关。

您可以随时在github查看Nutch正式存储库,当然要确保您正在查看正确的分支。

无论如何,Nutch 2.X抓取脚本如下(你可以看到2.3源here):

crawl <seedDir> <crawlId> <solrURL> <numberOfRounds>

其中 seedDir 是您的种子网址所在的目录。文件是, crawlId 是您希望称为抓取作业的名称, solrURL 是自我解释的, numberOfRounds 正是您要找的。

请注意,该脚本还包含可以更改的参数(在脚本中),例如每个级别获取的页面数(即爬行的宽度)。

答案 1 :(得分:0)

它位于conf文件夹中的nutch-default.xml