避免或阻止所有负载平衡的站点被爬网

时间:2012-05-18 02:39:39

标签: web-crawler umbraco load-balancing robots.txt

我们在负载均衡的环境中有一个Umbraco站点,我们需要确保只抓取实际的URL而不是不同的生产URL。

我们只希望example.com被编入索引,而production1.example.comproduction2.example.com的负载均衡器则不会。{/ p>

我是否会将这些网址的禁止规则添加到robots.txt中,或者向元首添加元nofollow标记?或者是否有另一种方法可以使负载均衡URL不被爬虫索引?

1 个答案:

答案 0 :(得分:0)

最佳解决方案:不要公开提供特定于节点的URL(我们通常使用本地IP /端口检查特定节点上的站点)。

由于您拥有这些域,因此您可以根据域(使用URL重写)提供不同的robots.txt。