没有实现Robot Exclusion Protocal(robots.txt)的机器人可以读取网站的任何内容吗?

时间:2011-10-31 09:07:13

标签: web robots.txt

Robot Exclusion document说:

任何人都没有强制执行,并且无法保证所有当前和未来的机器人都会使用它。将其视为大多数机器人作者为WWW社区提供的常见设施,以保护WWW服务器免受机器人不必要的访问。

这是不是意味着一个坏机器人,没有实现Robot Exclusion Protocal(robots.txt),可以阅读网站的任何内容吗?

2 个答案:

答案 0 :(得分:1)

是。没有机器人被迫遵守规则。

答案 1 :(得分:1)

是。该协议是一种标记站点部分的方法,对于机器人来说爬行是没有意义的。它不是安全设施。

也就是说,网站提供的任何敏感或私人信息应仅在经过身份验证的会话中可用。仅使用基于URL的GUID-no-links-to或robots.txt来保护此类数据是不够的。

有一些令人尴尬的事件,例如当搜索引擎无意中编入索引(并缓存)时,发送手机提供商的短信确认页面,以及短信和收件人的电话号码。