应用错误收集

避免或阻止所有负载平衡的站点被爬网

时间：2012-05-18 02:39:39

标签： web-crawler umbraco load-balancing robots.txt

我们在负载均衡的环境中有一个Umbraco站点，我们需要确保只抓取实际的URL而不是不同的生产URL。

我们只希望example.com被编入索引，而production1.example.com和production2.example.com的负载均衡器则不会。{/ p>

我是否会将这些网址的禁止规则添加到robots.txt中，或者向元首添加元nofollow标记？或者是否有另一种方法可以使负载均衡URL不被爬虫索引？

1 个答案:

答案 0 :(得分：0)

最佳解决方案：不要公开提供特定于节点的URL（我们通常使用本地IP /端口检查特定节点上的站点）。

由于您拥有这些域，因此您可以根据域（使用URL重写）提供不同的robots.txt。