使用robots.txt文件阻止除图片以外的所有内容

时间:2018-10-17 07:23:06

标签: cdn robots.txt

我只将图像提供给CDN。

我在CDN域中设置了robots.txt文件,该文件与在“正常” www域中设置的文件分开。

我想在CDN域中格式化CDN robots.txt文件的格式,以便它阻止除图像以外的所有内容的索引(无论它们的位置如何)?

所有这些的原因是我要避免重复的内容。

这正确吗?

User-agent: * 
Disallow: / 
Allow: /*.jpg$
Allow: /*.jpeg$
Allow: /*.gif$
Allow: /*.png$

2 个答案:

答案 0 :(得分:3)

如果某些文件夹中有所有图像,则可以使用:

仅适用于google-bot:

User-agent: Googlebot-Image
Allow: /some-images-folder/

对于所有用户代理:

User-agent: *
Allow: /some-images-folder/
  

此外,Google还为   使用标准的robots.txt文件中的星号。禁止模式   可以包含“ *”以匹配任何字符序列,并且模式可以   以“ $”结尾以表示名称的结尾。

要允许特定的文件类型(例如,gif图像),可以使用以下robots.txt条目:

User-agent: Googlebot-Image
Allow: /*.gif$
  

信息1:默认情况下(如果您没有robots.txt),所有内容都会被抓取。

     

信息2:无论您的语句有多具体,Allow语句都应位于Disallow语句之前。

这是指向robot's exclusion standard的Wiki链接,以提供更详细的描述。

因此,您的示例应如下所示:

User-agent: * 
Allow: /*.jpg$
Allow: /*.jpeg$
Allow: /*.gif$
Allow: /*.png$
Disallow: / 

注意:正如nev在他的评论中指出的那样,注意扩展名末尾的查询字符串(例如image.jpg?x12345)也很重要,因此还要包含

  Allow: /*.jpg?*$

答案 1 :(得分:0)

是的! Disallow是对的!允许也是正确的!
提示也要指定一个站点地图! :)