Google Bot信息?

时间:2010-04-13 21:20:41

标签: c++ python c

是否有人知道有关Google的网络抓取工具(又称GoogleBot)的更多详细信息?我很好奇它写的是什么(我自己制作了一些爬虫,并准备另一个),如果它解析图像等。我假设它确实在某个地方,b / c images.google.com中的图像都调整了大小。如果它全部用Python编写并且他们使用所有自己的库来处理大多数事情,包括html / image / pdf解析,那也不会让我感到惊讶。也许他们不会。也许它全部用C / C ++编写。提前致谢 -

3 个答案:

答案 0 :(得分:1)

你可以在这里找到一些关于googlebot如何运作的信息:

http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=158587

例如,“获取googlebot”工具可让您看到Googlebot看到的页面。

答案 1 :(得分:1)

爬虫很可能用C或C ++编写,至少backrub的爬虫是用其中一种编写的。

请注意,爬网程序仅获取页面的快照,然后将其存储在临时数据库中以供以后处理。索引和其他附加算法将提取数据,例如图像引用。

答案 2 :(得分:0)

我认为,官方授权的Google语言是Python / C ++ / Java。

机器人可能会将所有3个用于不同的任务。