Question

我们的网站仅使用https，因此任何http都被强制使用https。但是仍然有一些机器人想要强行进入通过http。

我已经搜索过但找不到一种简单的方法。

所以我的问题是，我应该写什么给robots.txt，以便我只允许https

Answer 1

将硬302重定向写入https。如果只有一个http的机器人，它不是一个搜索引擎机器人。 Google，Yahoo和Bing仅接受https。你可以忽略所有其他机器人。

Answer 2

如果您使用HTTP 301从HTTP重定向到HTTPS，有能力的机器人会注意到重定向（并且，根据机器人的目的，遵循它，更新其索引等）。如果您想禁止抓取您的HTTP网址，请注意机器人将无法获知这些网页现在有新网址，因为他们不允许访问它们以注意重定向（如果您拥有或拥有HTTP链接）。

如果您仍然想要禁止抓取HTTP网址，请将以下robots.txt放在http://example.com/（或http://www.example.com/或您主机所在的位置）并执行不重定向此https://example.com/robots.txt的特定网址。

User-agent: *
Disallow: /