我正在构建一个组件,根据他们一直无效的无效请求来禁止垃圾邮件机器人的IP,并且没有任何用户可以错误地制作。
例如,他们总是尝试提交空表单,或者向只接收POST请求的网址发出GET请求。
我想知道的是,如果我有可能通过这样做来禁止谷歌机器人。
他们是否足够聪明,不会抓住他们遇到的每个网址?他们是否避免使用表单网址?
答案 0 :(得分:1)
Googlebot关注链接。它只会请求找到链接的页面。当然,该链接 不会驻留在您的网站上,因此可能无法直接控制。
Googlebot只会发出GET请求,因为根据RFC,GET请求不得有副作用。因此,它们无法在服务器上更改状态。提示:切勿使用链接(即“获取”)来执行或确认对您网站的某些更改,否则任何网络蜘蛛都可能触发它。
每个改变网站状态的CGI都应该验证传入的请求确实是POST,只是为了安全。
答案 1 :(得分:1)
Googlebot确实发出了无效请求。我发现在“发件人:”标头中发出的一些请求在标头指定的邮箱名称中不包含“ @”符号。其他机器人有时也会这样做。因此,请在请求中注意无效的可选标头数据。