我经营着一个小型的网络服务器,最近它被搜索引擎蜘蛛变成了奶油。冷却它的正确方法是什么?我应该定期发送5xx响应吗?我应该使用robots.txt设置吗?或其他什么?
答案 0 :(得分:6)
假设蜘蛛足够尊重robots.txt,您可以使用以下内容限制它访问您的网站:
User-agent: *
Disallow: /
这将影响所有蜘蛛。通过为蜘蛛指定正确的用户代理来缩小范围。
如果抓取工具不尊重您的robots.txt,您可能希望通过阻止其在防火墙中的IP来限制它访问您的网站。
编辑:您可以阅读有关robots.txt here的更多信息。
答案 1 :(得分:2)
Robots.txt应该是您的第一个停靠点。搜索机器人应该记下这些设置并停止点击您拒绝访问的页面。这可以通过使用以下语法在网站的根目录中创建文件来轻松完成:
User-agent: *
Disallow: /
该语法基本上说:所有搜索机器人(通配符*),不允许您在/下索引任何内容。有关更多信息,请访问robotstxt.org
如果这不起作用,下一步是尽可能禁用IP地址。
答案 2 :(得分:1)
您还可以构建sitemap并使用违规机器人注册站点地图。搜索引擎将使用站点地图来确定要搜索的页面以及搜索频率。如果你的网站是完全动态的,它可能没有多大帮助,但是如果你有很多静态页面,这是告诉蜘蛛每天没有任何变化的好方法。
答案 3 :(得分:1)
如果它忽略了robots.txt,那么第二个最好的事情就是用它的useragent字符串禁止它。只是禁止IP不会有太大用处,因为现在99%的蜘蛛分布在一堆服务器上。
答案 4 :(得分:0)
User-agent: *
Disallow: /
答案 5 :(得分:0)
robots.txt应该是您的首选。但是,如果机器人行为不端并且您无法控制防火墙,则可以设置.htaccess限制以通过IP禁止它。