如何设置Apache-Nutch Crawler的深度?
以下命令表示不推荐抓取:
bin/nutch crawl seed.txt -dir crawler/stat -depth 1 -topN 5
我尝试使用bin / crawl而不是抓取。为此,我收到了错误:
无法加载类:bin.crawl
答案 0 :(得分:0)
如果你真的想设置最大深度,你应该使用scoring-depth插件。爬网脚本允许您定义迭代次数,这是深度的上限,但不是同一个东西。 crawl命令的正确格式为:
bin/crawl -s seed.txt crawler/stat 1
与其他Nutch脚本一样,只需运行没有参数的bin / crawl即可查看说明如何使用它的帮助消息。