应用错误收集

时间：2017-10-10 18:41:58

标签： web-crawler nutch heritrix stormcrawler

我们需要每两周抓取一大批（约15亿）网页。速度，因此成本，对我们来说是一个巨大的因素，因为我们最初的尝试最终导致我们花费超过2万美元。

是否有关于哪个爬虫在分布式环境中表现最佳的数据？

答案 0 :(得分：7)

~~我们只尝试过nutch，stormcrawler和mixnode。我们最终使用mixnode在5k域中抓取约3亿页。~~

我的$ 0.02：mixnode是大规模爬行（也就是超过100万网址）的更好选择。对于较小的爬行，这是一种过度杀伤，因为你必须解析生成的warc文件，如果你只做几千页，那么运行你自己的脚本或使用像nutch或stormcrawler（甚至是scrapy）这样的开源替代方案会更容易

Mixnode现在是an "alternative" to web crawling，因此它与我的旧答案完全不同。

答案 1 :(得分：4)

有关Nutch和StormCrawler的比较，请参阅my article on dzone。

Heritrix可以在分布式模式下使用，但文档不清楚如何执行此操作。前两个依赖于完善的平台来分配计算（分别是Apache Hadoop和Apache Storm），但Heritrix不是这样。

Heritrix也主要由归档社区使用，而Nutch和StormCrawler用于更多用例（例如索引，抓取），并有更多资源用于提取数据。

我不熟悉您提到的2个托管服务，因为我只使用开源软件。