Nutch - 在1.6中仍然可以使用-depth和-topN

时间:2013-05-23 13:06:15

标签: solr nutch

我想知道参数-depth和& -topN仍可使用nutch 1.6 我甚至不知道这些参数与/ bin / crawl bash脚本中的limit参数有什么区别?

1 个答案:

答案 0 :(得分:0)

描述: -

  • depth深度表示应该抓取的根页的链接深度 例如您可以在根页面扫描中包含链接,而链接在其中也包含链接,依此类推。 这可能导致链接的指数扫描。深度参数限制将从根页面扫描的链接层次结构。

  • topN N确定在每个级别检索到最大深度的最大页数。
    例如您可以在根页面上拥有100个链接。 topN会限制每个级别上要扫描的链接数量。

所以基本上应该扫描的最大链接数是Root Page * Depth * topN

此外,请勿在文档中看到它们已被删除或弃用。所以我认为它们可用。