我们的网站仅使用https,因此任何http都被强制使用https。但是仍然有一些机器人想要强行进入通过http。
我已经搜索过但找不到一种简单的方法。
所以我的问题是,我应该写什么给robots.txt,以便我只允许https
答案 0 :(得分:0)
将硬302重定向写入https。如果只有一个http的机器人,它不是一个搜索引擎机器人。 Google,Yahoo和Bing仅接受https。你可以忽略所有其他机器人。
答案 1 :(得分:0)
如果您使用HTTP 301从HTTP重定向到HTTPS,有能力的机器人会注意到重定向(并且,根据机器人的目的,遵循它,更新其索引等)。如果您想禁止抓取您的HTTP网址,请注意机器人将无法获知这些网页现在有新网址,因为他们不允许访问它们以注意重定向(如果您拥有或拥有HTTP链接)。
如果您仍然想要禁止抓取HTTP网址,请将以下robots.txt放在http://example.com/
(或http://www.example.com/
或您主机所在的位置)并执行不重定向此https://example.com/robots.txt
的特定网址。
User-agent: *
Disallow: /