重定向爬虫

时间:2012-01-14 15:38:25

标签: php

我有一个在线工具,可以跟踪任务和用户完成任务。作为流程的一部分,我记录$_SERVER['HTTP_USER_AGENT']。但是,有一段时间我会得到各种机器人和爬虫的访问。如何轻轻地将它们重定向到其他地方而不“伤害他们的感情”?

我以为我会建立一个带有机器人名称的数组,并针对它运行每个AGENT信息,如果在数组中找到,则重定向。

有更好的方法吗?

2 个答案:

答案 0 :(得分:6)

如果尚未完成,您可以使用robots.txt文件删除大多数抓取工具。 See here.但并未严格遵守。那些继续爬行的人可以被禁止知识产权。您可以在Linux上使用iptables执行此操作。例如:

iptables -A INPUT -s IP-ADDRESS -j DROP

答案 1 :(得分:3)

使用needed spiders制作列表,并使用以下代码进行重定向:

header('HTTP/1.1 301 Moved Permanently');
header('Location: NEED_URL_HERE');

Actualy你可以使用.htaccessrobots.txt(如果抓取工具使用它)

 User-agent: *
 Disallow: /

UPD:如果您将此用于SEO(cloacking),您可能会受到搜索引擎的惩罚,请小心。