使用robots.txt阻止Wayback Machine仅适用于www.domain.com而不适用于domain.com

时间:2016-04-05 14:32:27

标签: robots.txt

我试图阻止Wayback Machine(archive.org)存档我的网站并从存档中删除旧页面。

我已将此添加到我的robots.txt中,该文件位于根目录中(我在Plesk上,因此它将是httpdocs /):

User-agent: ia_archiver
Disallow: / 

现在奇怪的是......这只适用于WWW.domain.com而不适用于domain.com。我没有使用www域名,因为seo原因,所有www请求都被重定向到domain.com。因此,www.domain.com现在无法进行归档,但domain.com仍在存档。

我错过了什么吗?

1 个答案:

答案 0 :(得分:0)

似乎是同步问题。

虽然www.domain.com在robots.txt的指示下几乎立即被阻止,但域名网站需要几个小时到几天才能兑现排除。

测试版(https://web-beta.archive.org/)正确处理此问题:www.domain.com和domain.com都会立即被阻止。