robots.txt - 禁止文件夹但允许文件夹中的文件

时间:2017-03-19 02:17:22

标签: robots.txt

我的sitemap.xml和robots.txt

之间似乎存在冲突

我网站上的所有图片都存储在文件夹/ p​​ubstore中 当google抓取该文件夹时,它找不到任何内容,因为我不包含该文件夹中的文件列表。

这反过来会在Google搜索控制台中产生数百个404错误。

我决定做的是阻止谷歌通过添加以下内容来抓取文件夹:

Disallow: '/pubstore/'

现在发生的是该文件夹或该文件夹中的子目录中的文件是谷歌的阻止,因此谷歌没有索引我的图像。

一个示例场景,

我有一个使用图片/pubstore/12345/image.jpg

的页面

Google无法获取它,因为/ pubstore已被阻止。

我的最终结果是我希望实际文件可以抓取,但不能抓取文件夹或其子目录。

允许

/pubstore/file.jpg
/pubstore/1234/file.jpg
/pubstore/1234/543/file.jpg
/pubstore/1234/543/132/file.jpg

禁止:

/pubstore/
/pubstore/1234/
/pubstore/1234/543/
/pubstore/1234/543/132/

如何实现这一目标?

1 个答案:

答案 0 :(得分:3)

如果您没有链接到您网站上的/pubstore//pubstore/folder/,则通常没有理由关注他们的404。这是对这些URL的正确回应(因为没有内容)。

如果您仍想使用robots.txt阻止对这些内容进行任何抓取,则必须使用Allow,这不是原始robots.txt规范的一部分,但受Google支持。

例如:

User-agent: Googlebot
Disallow: /pubstore/
Allow: /pubstore/*.jpg$
Allow: /pubstore/*.JPG$

或者如果您想要允许许多不同的文件类型,可能只是:

User-agent: Googlebot
Disallow: /pubstore/
Allow: /pubstore/*.

这将允许所有路径以/pubstore/开头的网址,后跟任意字符串,后跟.,后跟任意字符串。