应用错误收集

apache nutch在生成阶段花费太长时间

时间：2014-10-20 07:53:36

标签： apache web-crawler nutch

我的网址/种子文件中有两个网址。我的爬虫在开始抓取之前花了太多时间。我已经抓取的数据大约是220 GB。知道为什么nutch表现得像这样

1 个答案:

答案 0 :(得分：1)

在获取作业之前，生成作业在Nutch中执行。在生成作业中，Nutch将选择topN URL，这些URL在CrawlDB中的所有URL中得分最高，用于获取。因此，您的抓取工具在获取之前花费的时间太长的原因是您设置topN与系统容量相比太高，并且crawlDB中的URL数量很大（选择流程需要时间）。

希望这有帮助

Le Quoc Do