在v2.2.1中有一个nutch crawl命令,您可以在其中为爬行提供深度
bin / nutch crawl [-solr] [-dir d] [-threads n] [-dethth i] [-topN N]
如何为nutch v2.3做同样的事情?
答案 0 :(得分:1)
脚本的文档没有更新,我认为那里的脚本与Nutch 1.4相关。
您可以随时在github查看Nutch正式存储库,当然要确保您正在查看正确的分支。
无论如何,Nutch 2.X抓取脚本如下(你可以看到2.3源here):
crawl <seedDir> <crawlId> <solrURL> <numberOfRounds>
其中 seedDir 是您的种子网址所在的目录。文件是, crawlId 是您希望称为抓取作业的名称, solrURL 是自我解释的, numberOfRounds 正是您要找的。
请注意,该脚本还包含可以更改的参数(在脚本中),例如每个级别获取的页面数(即爬行的宽度)。
答案 1 :(得分:0)
它位于conf文件夹中的nutch-default.xml