Nutch vs Heritrix vs Stormcrawler vs MegaIndex vs Mixnode

时间:2017-10-10 18:41:58

标签: web-crawler nutch heritrix stormcrawler

我们需要每两周抓取一大批(约15亿)网页。速度,因此成本,对我们来说是一个巨大的因素,因为我们最初的尝试最终导致我们花费超过2万美元。

是否有关于哪个爬虫在分布式环境中表现最佳的数据?

2 个答案:

答案 0 :(得分:7)

我们只尝试过nutch,stormcrawler和mixnode。我们最终使用mixnode在5k域中抓取约3亿页。

我的$ 0.02:mixnode是大规模爬行(也就是超过100万网址)的更好选择。对于较小的爬行,这是一种过度杀伤,因为你必须解析生成的warc文件,如果你只做几千页,那么运行你自己的脚本或使用像nutch或stormcrawler(甚至是scrapy)这样的开源替代方案会更容易

Mixnode现在是an "alternative" to web crawling,因此它与我的旧答案完全不同。

答案 1 :(得分:4)

有关Nutch和StormCrawler的比较,请参阅my article on dzone

Heritrix可以在分布式模式下使用,但文档不清楚如何执行此操作。前两个依赖于完善的平台来分配计算(分别是Apache Hadoop和Apache Storm),但Heritrix不是这样。

Heritrix也主要由归档社区使用,而Nutch和StormCrawler用于更多用例(例如索引,抓取),并有更多资源用于提取数据。

我不熟悉您提到的2个托管服务,因为我只使用开源软件。