如果搜索引擎蜘蛛正在锤击我的网站,我该怎么办?

时间:2009-01-22 23:50:19

标签: web search-engine web-crawler

我经营着一个小型的网络服务器,最近它被搜索引擎蜘蛛变成了奶油。冷却它的正确方法是什么?我应该定期发送5xx响应吗?我应该使用robots.txt设置吗?或其他什么?

6 个答案:

答案 0 :(得分:6)

假设蜘蛛足够尊重robots.txt,您可以使用以下内容限制它访问您的网站:

User-agent: *
Disallow: /

这将影响所有蜘蛛。通过为蜘蛛指定正确的用户代理来缩小范围。

如果抓取工具不尊重您的robots.txt,您可能希望通过阻止其在防火墙中的IP来限制它访问您的网站。

编辑:您可以阅读有关robots.txt here的更多信息。

答案 1 :(得分:2)

Robots.txt应该是您的第一个停靠点。搜索机器人应该记下这些设置并停止点击您拒绝访问的页面。这可以通过使用以下语法在网站的根目录中创建文件来轻松完成:

User-agent: *
Disallow: /

该语法基本上说:所有搜索机器人(通配符*),不允许您在/下索引任何内容。有关更多信息,请访问robotstxt.org

如果这不起作用,下一步是尽可能禁用IP地址。

答案 2 :(得分:1)

您还可以构建sitemap并使用违规机器人注册站点地图。搜索引擎将使用站点地图来确定要搜索的页面以及搜索频率。如果你的网站是完全动态的,它可能没有多大帮助,但是如果你有很多静态页面,这是告诉蜘蛛每天没有任何变化的好方法。

答案 3 :(得分:1)

如果它忽略了robots.txt,那么第二个最好的事情就是用它的useragent字符串禁止它。只是禁止IP不会有太大用处,因为现在99%的蜘蛛分布在一堆服务器上。

答案 4 :(得分:0)

User-agent: *
Disallow: /

答案 5 :(得分:0)

robots.txt应该是您的首选。但是,如果机器人行为不端并且您无法控制防火墙,则可以设置.htaccess限制以通过IP禁止它。