Google网络抓取机器人遇到了哪些HTTP签名?

时间:2009-05-29 18:21:06

标签: http sockets seo



所有可用的HTTP数据,

你能找到什么“迹象”来识别谷歌的搜索引擎机器人?

4 个答案:

答案 0 :(得分:3)

How to verify googlebot - 官方方法。

答案 1 :(得分:1)

据我所知,Google的抓取工具将用户代理设置为“Googlebot”。

其他搜索引擎提供商通常会在用户代理中坚持使用可识别的名称;有各种众所周知的代理商列表,例如http://www.jafsoft.com/searchengines/webbots.html上的代理商。

答案 2 :(得分:1)

User-Agent标题应足以检测Google僵尸程序

查看user-agents.org网站以获取已知se bot的列表

通过你想要确保这是一个真正的googlebot谷歌,那么你可以看看总是

的IP /主机
  

C [NN] .googlebot.com

其中[nn]是一个数字。

答案 3 :(得分:0)

好吧,我不太确定对ip地址进行DNS反向查找是多么可维护。我只会这样做,如果你担心有人欺骗谷歌的用户代理字符串,这是不太可能的。正如文章所指出的那样,它本身也可能是欺骗性的。

你最好只匹配他们已知的用户代理:

Regex.IsMatch(ua, @"googlebot|mediapartners-google|adsbot-google", RegexOptions.IgnoreCase);