Apache Nutch工作器实例的最大数量

时间:2015-12-17 02:39:29

标签: hadoop nutch

一个主节点可以同时运行的Apache Nutch爬虫程序实例的最大数量是多少?

1 个答案:

答案 0 :(得分:1)

不清楚抓取工具实例的含义。如果要并行多次运行爬网脚本,例如你有不同的爬行与单独的配置,种子等...然后他们将争夺Hadoop集群上的插槽。然后,它将归结为您的群集上有多少个映射器/缩减器插槽,这本身取决于有多少个从站。

并行处理多个Nutch爬网可能会非常棘手且资源效率低下。而是重新考虑您的架构,以便所有逻辑爬虫可以作为单个物理爬虫运行或查看StormCrawler,这应该更适合这样做。