我的网址/种子文件中有两个网址。我的爬虫在开始抓取之前花了太多时间。我已经抓取的数据大约是220 GB。知道为什么nutch表现得像这样
答案 0 :(得分:1)
在获取作业之前,生成作业在Nutch中执行。在生成作业中,Nutch将选择topN URL,这些URL在CrawlDB中的所有URL中得分最高,用于获取。因此,您的抓取工具在获取之前花费的时间太长的原因是您设置topN与系统容量相比太高,并且crawlDB中的URL数量很大(选择流程需要时间)。
希望这有帮助
Le Quoc Do