是否可以使用Googlebot的用户代理令牌而不是完整的用户代理字符串来检测它?

时间:2019-10-28 08:31:55

标签: web-crawler httprequest googlebot

发件人:https://support.google.com/webmasters/answer/1061943?hl=en

下表显示了Google各种产品和服务使用的搜寻器:

    在为您的网站编写抓取规则时,robots.txt中的User-agent:行中使用
  • 用户代理令牌来匹配抓取工具类型。某些抓取工具具有多个令牌,如下表所示;您只需要匹配一个搜寻器令牌即可应用规则。该列表并不完整,但涵盖了您可能会在网站上看到的大多数爬网程序。

  • 完整的用户代理字符串是搜寻器的完整说明,并出现在请求和您的Web日志中。

enter image description here

问题

从上面的摘录中我们可以看到,有可能使用 robots.txt 文件中的用户代理令牌进行匹配,从而检测到爬虫。

我想在服务器上使用用户代理令牌来检测Googlebot搜寻器请求。因此,我不必对完整的用户代理字符串进行硬编码。

但是request headers中是否存在用户代理令牌?可以使用它还是我应该坚持使用完整的用户代理字符串

1 个答案:

答案 0 :(得分:1)

如果比较“用户代理令牌”和“完整用户代理字符串”列上的值,则可以在“完整用户代理字符串”中看到“产品令牌”。因此,您可以检查“完整用户代理字符串”是否包含“用户代理令牌”。

“全用户代理字符串”上的数字将来会比“产品令牌”更频繁地更改。