我们在负载均衡的环境中有一个Umbraco站点,我们需要确保只抓取实际的URL而不是不同的生产URL。
我们只希望example.com
被编入索引,而production1.example.com
和production2.example.com
的负载均衡器则不会。{/ p>
我是否会将这些网址的禁止规则添加到robots.txt中,或者向元首添加元nofollow
标记?或者是否有另一种方法可以使负载均衡URL不被爬虫索引?
答案 0 :(得分:0)
最佳解决方案:不要公开提供特定于节点的URL(我们通常使用本地IP /端口检查特定节点上的站点)。
由于您拥有这些域,因此您可以根据域(使用URL重写)提供不同的robots.txt。