如何构建像谷歌这样强大的抓取工具?

时间:2016-06-25 08:27:33

标签: performance scrapy web-crawler distributed-system

我想构建一个可以在几分钟内更新数十万个链接的爬虫。 有没有成熟的方法来安排? 需要分布式系统吗? 限制性能的最大障碍是什么? THX。

3 个答案:

答案 0 :(得分:2)

对于Python,您可以通过Scrapinghub与Frontera一起使用

https://github.com/scrapinghub/frontera

https://github.com/scrapinghub/frontera/blob/distributed/docs/source/topics/distributed-architecture.rst

他们是制造Scrapy的人。

Apache Nutch也是一个更老的项目。 http://nutch.apache.org/

答案 1 :(得分:1)

你需要一个分布式爬虫,但不要重新发明轮子,使用Apache Nutch。它完全是为了这个目的而建造的,是成熟稳定的,并被广泛的社区用来处理大规模的爬行。

答案 2 :(得分:0)

除非您愿意降低速度,否则所需的处理和内存量需要分布式处理。请记住,您将处理数十亿个链接和太字节的文本和图像