我有一个在线工具,可以跟踪任务和用户完成任务。作为流程的一部分,我记录$_SERVER['HTTP_USER_AGENT']
。但是,有一段时间我会得到各种机器人和爬虫的访问。如何轻轻地将它们重定向到其他地方而不“伤害他们的感情”?
我以为我会建立一个带有机器人名称的数组,并针对它运行每个AGENT信息,如果在数组中找到,则重定向。
有更好的方法吗?
答案 0 :(得分:6)
如果尚未完成,您可以使用robots.txt文件删除大多数抓取工具。 See here.但并未严格遵守。那些继续爬行的人可以被禁止知识产权。您可以在Linux上使用iptables执行此操作。例如:
iptables -A INPUT -s IP-ADDRESS -j DROP
答案 1 :(得分:3)
使用needed spiders制作列表,并使用以下代码进行重定向:
header('HTTP/1.1 301 Moved Permanently');
header('Location: NEED_URL_HERE');
Actualy你可以使用.htaccess或robots.txt(如果抓取工具使用它)
User-agent: *
Disallow: /
UPD:如果您将此用于SEO(cloacking),您可能会受到搜索引擎的惩罚,请小心。