我应该摆脱访问我网站的机器人吗?

时间:2008-11-29 05:03:33

标签: seo robots.txt

我一直在注意到我的跟踪器机器人正在访问我的网站ALOT。我应该更改或编辑我的robots.txt还是改变一些东西?不确定这是好的,因为它们是索引还是什么?

5 个答案:

答案 0 :(得分:4)

  

我应该更改或编辑我的robots.txt还是更改某些内容?

取决于机器人。一些机器人将尽职尽责地忽略robots.txt。 我们在18个月前使用Google AD机器人遇到了类似问题,因为我们的客户正在购买Soooo许多广告。 Google AD机器人(如文档所述)会忽略通配符(*)排除,但会听取显式忽略。

请记住,尊重robots.txt的机器人不会抓取您的网站。如果您希望它们可以访问您的数据以进行索引,那么这是不可取的。

更好的解决方案是为机器人节流或提供静态内容。

  

不确定这是否合适,因为它们是索引还是什么?

他们可能是索引/抓取/窃取。真的都一样。我认为你想要的是根据UserAgents来限制他们的http请求处理。如何执行此操作取决于您的Web服务器和应用程序容器。

正如其他答案中所建议的那样,如果机器人是恶意的,那么你需要找到UserAgent模式并发送403 forbiddens。或者,如果恶意机器人动态更改用户代理字符串,则还有两个选项:

  • 白名单UserAgent - 例如创建仅接受某些用户代理的用户代理筛选器。这非常不完美。
  • IP禁止 - http标头将包含源IP。或者,如果你得到DOS(拒绝服务攻击),那么你有更大的问题

答案 1 :(得分:4)

我真的不认为改变robots.txt会有所帮助,因为只有好机器人才能遵守它。所有其他人都会忽略它并随意解析您的内容。我个人使用http://www.codeplex.com/urlrewriter通过响应禁止的消息来摆脱不受欢迎的机器人。如果找到它们。

答案 2 :(得分:3)

垃圾邮件机器人不关心robots.txt。您可以使用mod_security(这本身就是一个非常酷的Apache插件)来阻止它们。或者你可以忽略它们。

答案 3 :(得分:2)

你可能不得不使用.htaccess来拒绝一些机器人来解决你的日志问题。 见这里:http://spamhuntress.com/2006/02/13/another-hungry-java-bot/

我有很多Java机器人抓取我的网站,添加

SetEnvIfNoCase User-Agent ^ Java / 1。 javabot = YES
SetEnvIfNoCase User-Agent ^ Java1。 javabot = YES
拒绝来自env = javabot

让他们停下来。现在他们只得到403一次,就是这样:))

答案 4 :(得分:2)

我曾经为一位客户工作过,他们有一些“价格比较”机器人一直在打网站。问题是我们的后端资源稀缺,每笔交易都要花钱。

在试图对抗其中一些已经有一段时间后,但机器人只是不断改变其可识别的特征。我们最终采取了以下策略:

对于服务器上的每个会话,我们确定用户是否在任何点上点击太快。在给定次数的重复之后,我们将“isRobot”标志设置为true,并通过添加睡眠来简化该会话内的响应速度。我们没有以任何方式告诉用户,因为在那种情况下他只是开始一个新的会话。