使用哪种编程语言是Googlebot(或任何其他高效的网络爬虫)?

时间:2009-10-28 17:59:27

标签: web-crawler googlebot

有谁知道Googlebot是用哪种编程语言编写的?

或者,更一般地说,哪种语言是高效的网络抓取工具?

我见过许多Java语言,但在我看来,开发网络爬虫并不是最合适的语言,因为它会产生太多的开销(尝试使用Heritrix网络爬虫,而且非常繁重)

5 个答案:

答案 0 :(得分:5)

有根据的猜测是Python。他们employ the creator of it。但是,我可以想象他们的爬虫可能是一个利用MapReduce的分布式应用程序,在这种情况下它可能实际上是一个C / C ++应用程序。

但这不是重点。您可以使用多种不同语言编写高效的Web爬网程序,但仍可获得相同的结果。即使它是黄色或蓝色的锤子,锤子仍会击中钉子。选择您喜欢的颜色并正确使用它。

答案 1 :(得分:3)

最早的版本,Backrub,was written in Python and Java

答案 2 :(得分:3)

这可能会有所帮助。原始谷歌论文。

http://infolab.stanford.edu/~backrub/google.html

答案 3 :(得分:1)

不了解GoogleBot(很可能是C或Python),但Java和.NET都有一些好的。

比较流行的开源选项之一是Nutch(经常与Lucene一起使用)。

Nutch本身就是用Java编写的,效率很高。还有一个名为Nutch.NET的.NET端口。

答案 4 :(得分:0)

我认为这种语言不像具体实施那么重要。

您在Java中担心什么样的开销?记忆,处理能力?