Question

我的问题是从某个种子列表开始抓取每个页面和每个文档。

我已经安装了nutch并使用以下命令运行它：

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

我希望nutch进程能够抓取类似100 url的内容，但它说它只找到了11个文档。所以我试着用这个命令运行nutch：

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 4

它找到了23份文件。

我正在从测试种子http://nutch.apache.org

开始运行该过程

为什么nutch有这种行为？如何设置nutch从我的种子开始在一定深度抓取每个URL？

Answer 1

topN设置每个深度中要获取的url数。在您的第一个示例中，深度为3. Depth1是种子URL。并且在深度2和深度3中，将获取5（topN值）url。 5 * 2（depth2和depth3）+ 1（种子url，即depth1）= 11.要获取更多网址，可以增加topN。如果您不想限制，则可以跳过topN参数。

Nutch：在一定深度内抓取每个网址

1 个答案: