设置Apache-Nutch Crawler的深度

时间:2017-12-26 06:51:02

标签: nutch depth

如何设置Apache-Nutch Crawler的深度?

以下命令表示不推荐抓取:

bin/nutch crawl seed.txt -dir crawler/stat -depth 1 -topN 5

我尝试使用bin / crawl而不是抓取。为此,我收到了错误:

  无法加载

类:bin.crawl

1 个答案:

答案 0 :(得分:0)

如果你真的想设置最大深度,你应该使用scoring-depth插件。爬网脚本允许您定义迭代次数,这是深度的上限,但不是同一个东西。 crawl命令的正确格式为:

bin/crawl -s seed.txt crawler/stat 1

与其他Nutch脚本一样,只需运行没有参数的bin / crawl即可查看说明如何使用它的帮助消息。