Question

我只将图像提供给CDN。

我在CDN域中设置了robots.txt文件，该文件与在“正常” www域中设置的文件分开。

我想在CDN域中格式化CDN robots.txt文件的格式，以便它阻止除图像以外的所有内容的索引（无论它们的位置如何）？

所有这些的原因是我要避免重复的内容。

这正确吗？

User-agent: * 
Disallow: / 
Allow: /*.jpg$
Allow: /*.jpeg$
Allow: /*.gif$
Allow: /*.png$

Answer 1

如果某些文件夹中有所有图像，则可以使用：

仅适用于google-bot：

User-agent: Googlebot-Image
Allow: /some-images-folder/

对于所有用户代理：

User-agent: *
Allow: /some-images-folder/

此外，Google还为使用标准的robots.txt文件中的星号。禁止模式可以包含“ *”以匹配任何字符序列，并且模式可以以“ $”结尾以表示名称的结尾。

要允许特定的文件类型（例如，gif图像），可以使用以下robots.txt条目：

User-agent: Googlebot-Image
Allow: /*.gif$

信息1：默认情况下（如果您没有robots.txt），所有内容都会被抓取。

信息2：无论您的语句有多具体，Allow语句都应位于Disallow语句之前。

这是指向robot's exclusion standard的Wiki链接，以提供更详细的描述。

因此，您的示例应如下所示：

User-agent: * 
Allow: /*.jpg$
Allow: /*.jpeg$
Allow: /*.gif$
Allow: /*.png$
Disallow: /

注意：正如nev在他的评论中指出的那样，注意扩展名末尾的查询字符串（例如image.jpg?x12345）也很重要，因此还要包含

  Allow: /*.jpg?*$

Answer 2

是的！ Disallow是对的！允许也是正确的！
提示也要指定一个站点地图！：）