Question

我经营着一个小型的网络服务器，最近它被搜索引擎蜘蛛变成了奶油。冷却它的正确方法是什么？我应该定期发送5xx响应吗？我应该使用robots.txt设置吗？或其他什么？

Answer 1

假设蜘蛛足够尊重robots.txt，您可以使用以下内容限制它访问您的网站：

User-agent: *
Disallow: /

这将影响所有蜘蛛。通过为蜘蛛指定正确的用户代理来缩小范围。

如果抓取工具不尊重您的robots.txt，您可能希望通过阻止其在防火墙中的IP来限制它访问您的网站。

编辑：您可以阅读有关robots.txt here的更多信息。

Answer 2

Robots.txt应该是您的第一个停靠点。搜索机器人应该记下这些设置并停止点击您拒绝访问的页面。这可以通过使用以下语法在网站的根目录中创建文件来轻松完成：

User-agent: *
Disallow: /

该语法基本上说：所有搜索机器人（通配符*），不允许您在/下索引任何内容。有关更多信息，请访问robotstxt.org

如果这不起作用，下一步是尽可能禁用IP地址。

Answer 3

您还可以构建sitemap并使用违规机器人注册站点地图。搜索引擎将使用站点地图来确定要搜索的页面以及搜索频率。如果你的网站是完全动态的，它可能没有多大帮助，但是如果你有很多静态页面，这是告诉蜘蛛每天没有任何变化的好方法。

Answer 4

如果它忽略了robots.txt，那么第二个最好的事情就是用它的useragent字符串禁止它。只是禁止IP不会有太大用处，因为现在99％的蜘蛛分布在一堆服务器上。

Answer 5

User-agent: *
Disallow: /

Answer 6

robots.txt应该是您的首选。但是，如果机器人行为不端并且您无法控制防火墙，则可以设置.htaccess限制以通过IP禁止它。