Question

为避免网站CDN上的重复内容，我为.www域和.cdn域分别创建了robots.txt文件。

.www robots.txt仅禁止/ cgi-bin /和/ tmp /目录，并允许其他所有内容。

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/

.cdn robots.txt文件禁止除其服务的资产（即图像（所有扩展名），css和javascript）之外的所有内容。

User-agent: * 
Allow: /*.jpg$
Allow: /*.JPG$
Allow: /*.jpeg$
Allow: /*.JPEG$
Allow: /*.jpg?*$
Allow: /*.JPG?*$
Allow: /*.jpeg?*$
Allow: /*.JPEG?*$
Allow: /*.gif$
Allow: /*.GIF$
Allow: /*.gif?*$
Allow: /*.GIF?*$
Allow: /*.png$
Allow: /*.PNG$
Allow: /*.png?*$
Allow: /*.PNG?*$
Allow: /*.css$
Allow: /*.CSS$
Allow: /*.css?*$
Allow: /*.CSS?*$
Allow: /*.js$
Allow: /*.JS$
Allow: /*.js?*$
Allow: /*.JS?*$
Disallow: /

在设置这些单独的robots.txt文件之前，CDN的robots.txt文件可能配置错误。就是这样。

但是，在我的搜索控制台中，我仍然看到消息，表明网站上的某些资源已被CDN的robots.txt文件阻止。

它给了我一些页面示例，这些页面显然已经阻塞了资源。但是，当我检查这些示例中的任何一个并使用robots.txt测试仪对其进行测试时，测试仪会显示CDN的robots.txt文件允许使用该资源。

现在已经进行了大约一周的时间，而且每天似乎有更多“被阻止”的资源在我通过robots.txt测试仪检查后可以看到，实际上并未被阻止。

是否需要很长时间才能让Google看到实际上并未阻止这些资源？如果是这样，为什么在进行更改很长时间之后，“阻塞”资源的数量却增加了？

谷歌表示CDN网站的robots.txt正在阻止实际上不再阻止的资源

0 个答案: