担心蜘蛛反复打击高需求页面

时间:2010-04-15 11:46:15

标签: web-crawler

由于一些相当奇怪的架构考虑因素,我不得不设置一些真正应该作为控制台应用程序作为网页运行的东西。它可以从我们的站点数据中编写各种各样的文本文件和xml提要,以便获取各种其他服务,因此显然需要一段时间才能运行并且处理器非常密集。

然而,在我部署它之前,我很担心它会被蜘蛛等反复击中。对于重写数据很好,但是由于显而易见的原因,此页面上的连续点击会触发性能问题。

这是我应该担心的吗?或者实际上蜘蛛流量不足以引起问题?

3 个答案:

答案 0 :(得分:1)

你可以告诉那些大人物不要惹你生气; www.robotstxt.org

您还可以实施某种形式的身份验证/ IP地址标准,以防止其运行。

答案 1 :(得分:1)

你可能会惊讶那里有多少蜘蛛。

您应该使用robots.txt排除它们。

如果您担心蜘蛛可能会忽略robots.txt(有些不可避免的会),那么要求POST而不是GET来触发脚本呢?这应该排除所有蜘蛛。

答案 2 :(得分:0)

您应该要求对页面进行身份验证。

即使您在robots.txt中将其排除,也无法保证蜘蛛会尊重这一点。如果它是一个可能影响网站可用性的昂贵页面,请将其粘贴在身份验证网关之后。