发件人:https://support.google.com/webmasters/answer/1061943?hl=en
下表显示了Google各种产品和服务使用的搜寻器:
用户代理令牌来匹配抓取工具类型。某些抓取工具具有多个令牌,如下表所示;您只需要匹配一个搜寻器令牌即可应用规则。该列表并不完整,但涵盖了您可能会在网站上看到的大多数爬网程序。
完整的用户代理字符串是搜寻器的完整说明,并出现在请求和您的Web日志中。
问题
从上面的摘录中我们可以看到,有可能使用 robots.txt 文件中的用户代理令牌进行匹配,从而检测到爬虫。
我想在服务器上使用用户代理令牌来检测Googlebot搜寻器请求。因此,我不必对完整的用户代理字符串进行硬编码。
但是request headers
中是否存在用户代理令牌?可以使用它还是我应该坚持使用完整的用户代理字符串?
答案 0 :(得分:1)
如果比较“用户代理令牌”和“完整用户代理字符串”列上的值,则可以在“完整用户代理字符串”中看到“产品令牌”。因此,您可以检查“完整用户代理字符串”是否包含“用户代理令牌”。
“全用户代理字符串”上的数字将来会比“产品令牌”更频繁地更改。