Robots.txt - 允许机器人仅通过htts访问

时间:2016-04-14 14:43:07

标签: ruby-on-rails robots.txt

我们的网站仅使用https,因此任何http都被强制使用https。但是仍然有一些机器人想要强行进入通过http。

我已经搜索过但找不到一种简单的方法。

所以我的问题是,我应该写什么给robots.txt,以便我只允许https

2 个答案:

答案 0 :(得分:0)

将硬302重定向写入https。如果只有一个http的机器人,它不是一个搜索引擎机器人。 Google,Yahoo和Bing仅接受https。你可以忽略所有其他机器人。

答案 1 :(得分:0)

如果您使用HTTP 301从HTTP重定向到HTTPS,有能力的机器人会注意到重定向(并且,根据机器人的目的,遵循它,更新其索引等)。如果您想禁止抓取您的HTTP网址,请注意机器人将无法获知这些网页现在有新网址,因为他们不允许访问它们以注意重定向(如果您拥有或拥有HTTP链接)。

如果您仍然想要禁止抓取HTTP网址,请将以下robots.txt放在http://example.com/(或http://www.example.com/或您主机所在的位置)并执行重定向此https://example.com/robots.txt的特定网址。

User-agent: *
Disallow: /