apache nutch在生成阶段花费太长时间

时间:2014-10-20 07:53:36

标签: apache web-crawler nutch

我的网址/种子文件中有两个网址。我的爬虫在开始抓取之前花了太多时间。我已经抓取的数据大约是220 GB。知道为什么nutch表现得像这样

1 个答案:

答案 0 :(得分:1)

在获取作业之前,生成作业在Nutch中执行。在生成作业中,Nutch将选择topN URL,这些URL在CrawlDB中的所有URL中得分最高,用于获取。因此,您的抓取工具在获取之前花费的时间太长的原因是您设置topN与系统容量相比太高,并且crawlDB中的URL数量很大(选择流程需要时间)。

希望这有帮助

Le Quoc Do