Question

在v2.2.1中有一个nutch crawl命令，您可以在其中为爬行提供深度

bin / nutch crawl [-solr] [-dir d] [-threads n] [-dethth i] [-topN N]

如何为nutch v2.3做同样的事情？

Answer 1

脚本的文档没有更新，我认为那里的脚本与Nutch 1.4相关。

您可以随时在github查看Nutch正式存储库，当然要确保您正在查看正确的分支。

无论如何，Nutch 2.X抓取脚本如下（你可以看到2.3源here）：

crawl <seedDir> <crawlId> <solrURL> <numberOfRounds>

其中 seedDir 是您的种子网址所在的目录。文件是， crawlId 是您希望称为抓取作业的名称， solrURL 是自我解释的， numberOfRounds 正是您要找的。

请注意，该脚本还包含可以更改的参数（在脚本中），例如每个级别获取的页面数（即爬行的宽度）。

Answer 2

它位于conf文件夹中的nutch-default.xml