在什么时候爬虫会被告知页面是404?

时间:2012-08-14 15:27:01

标签: php http-status-code-404 web-crawler

我一直在考虑使用php脚本作为404页面和数据库来匹配原始页面的URI与可能的重定向(如果存在)(否则显示404 HTML)。

我正在做一些阅读和搜索,并遇到了这个问题301 redirect with PHP and MySQL on 404。这几乎就是我想做的事。

我有一个由此引发的问题,并阻止我尝试实施它。在什么时候爬虫会被告知页面是404?

我想假设客户端(无论是用户还是机器人)会请求页面,服务器会获取404脚本+页面,解析php然后返回404页面或匹配的重定向页面到客户端。这是正确的吗?在页面返回之前,客户是否会忘记404状态?

1 个答案:

答案 0 :(得分:1)

  

在页面返回之前,客户是否会忘记404状态?

是。在得到对请求的响应之前,您无法知道将收到404错误。