是否有人知道有关Google的网络抓取工具(又称GoogleBot)的更多详细信息?我很好奇它写的是什么(我自己制作了一些爬虫,并准备另一个),如果它解析图像等。我假设它确实在某个地方,b / c images.google.com中的图像都调整了大小。如果它全部用Python编写并且他们使用所有自己的库来处理大多数事情,包括html / image / pdf解析,那也不会让我感到惊讶。也许他们不会。也许它全部用C / C ++编写。提前致谢 -
答案 0 :(得分:1)
你可以在这里找到一些关于googlebot如何运作的信息:
http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=158587
例如,“获取googlebot”工具可让您看到Googlebot看到的页面。
答案 1 :(得分:1)
爬虫很可能用C或C ++编写,至少backrub的爬虫是用其中一种编写的。
请注意,爬网程序仅获取页面的快照,然后将其存储在临时数据库中以供以后处理。索引和其他附加算法将提取数据,例如图像引用。
答案 2 :(得分:0)
我认为,官方授权的Google语言是Python / C ++ / Java。
机器人可能会将所有3个用于不同的任务。