我想知道参数-depth
和& -topN
仍可使用nutch 1.6
我甚至不知道这些参数与/ bin / crawl bash脚本中的limit
参数有什么区别?
答案 0 :(得分:0)
描述: -
depth
深度表示应该抓取的根页的链接深度
例如您可以在根页面扫描中包含链接,而链接在其中也包含链接,依此类推。
这可能导致链接的指数扫描。深度参数限制将从根页面扫描的链接层次结构。
topN
N确定在每个级别检索到最大深度的最大页数。
例如您可以在根页面上拥有100个链接。 topN会限制每个级别上要扫描的链接数量。
所以基本上应该扫描的最大链接数是Root Page * Depth * topN
此外,请勿在文档中看到它们已被删除或弃用。所以我认为它们可用。