如何判断页面是否允许机器人?

时间:2012-08-17 01:43:23

标签: php

我正在尝试创建一个机器人,检查特定网址是否包含某些特定内容。但是,当我运行它时,我不断收到“HTTP重定向循环”错误。

我唯一可以怀疑的是页面不允许机器人。有没有办法判断页面是否不允许机器人?我用谷歌搜索了它,但我还没有找到答案。

修改

在检查出某些东西之后,这就是robots.txt所说的:

User-agent: *
Disallow: /advsched/

我还注意到,当我在浏览器中禁用cookie并访问该页面时,我收到了“HTTP重定向循环”错误。所以从我的理解,我试图访问的页面是不允许机器人。但是,根据我对cURL函数的理解,只要我的用户代理是这样的:

Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.2) Gecko/20090729 Firefox/3.5.2 GTB5

该网站无法判断我是否是机器人。这只留下一件事 - 饼干。我知道cURL函数可以处理cookie,但是它们可以处理它们以便我看起来像标准用户吗?我还没能让它上班。

2 个答案:

答案 0 :(得分:3)

你无法分辨。

什么是机器人?服务器如何知道?通常,标识信息位于客户端在请求期间发送的User-Agent标头中。但是,并不要求某些服务器在一般级别上阻止“机器人”。假设他们想阻止谷歌?

马里奥建议检查robots.txt是一个很好的建议。网站所有者通常会在那里制定规则,以便机器人可以访问,以及如何处理信息。这与你的重新指示无关。

答案 1 :(得分:0)

检查/robots.txt并解释其内容。

说明位于http://robotstxt.org/