我只将图像提供给CDN。
我在CDN域中设置了robots.txt文件,该文件与在“正常” www域中设置的文件分开。
我想在CDN域中格式化CDN robots.txt文件的格式,以便它阻止除图像以外的所有内容的索引(无论它们的位置如何)?
所有这些的原因是我要避免重复的内容。
这正确吗?
User-agent: *
Disallow: /
Allow: /*.jpg$
Allow: /*.jpeg$
Allow: /*.gif$
Allow: /*.png$
答案 0 :(得分:3)
如果某些文件夹中有所有图像,则可以使用:
仅适用于google-bot:
User-agent: Googlebot-Image
Allow: /some-images-folder/
对于所有用户代理:
User-agent: *
Allow: /some-images-folder/
此外,Google还为 使用标准的robots.txt文件中的星号。禁止模式 可以包含“ *”以匹配任何字符序列,并且模式可以 以“ $”结尾以表示名称的结尾。
要允许特定的文件类型(例如,gif图像),可以使用以下robots.txt条目:
User-agent: Googlebot-Image
Allow: /*.gif$
信息1:默认情况下(如果您没有robots.txt),所有内容都会被抓取。
信息2:无论您的语句有多具体,Allow语句都应位于Disallow语句之前。
这是指向robot's exclusion standard的Wiki链接,以提供更详细的描述。
因此,您的示例应如下所示:
User-agent: *
Allow: /*.jpg$
Allow: /*.jpeg$
Allow: /*.gif$
Allow: /*.png$
Disallow: /
注意:正如nev在他的评论中指出的那样,注意扩展名末尾的查询字符串(例如image.jpg?x12345
)也很重要,因此还要包含
Allow: /*.jpg?*$
答案 1 :(得分:0)
是的! Disallow是对的!允许也是正确的!
提示也要指定一个站点地图! :)