robots.txt和.htaccess规则的这种组合是否会阻止某些文件类型的索引?

时间:2013-07-22 05:59:22

标签: apache .htaccess robots.txt

我正在开发一个WordPress网站,该网站有一个登录门户网站,用户可以通过pdf,doc和其他一些格式访问“分类”文档。文件通过媒体管理器上传,因此始终存储在/ wp-content / uploads

我需要确保搜索结果中不显示这些文件类型。我已经在.htaccess和robots.txt中制定了一些规则,我认为会起作用,但是很难测试,所以我希望有人可以浏览一下,让我知道他们是否会做我对他们的期望与否。有一件事我特别不确定:disallow: /wp-content/会阻止x-robots-tag被人看见吗?

.htaccess - 在# end Wordpress

# do not index specified file types
<IfModule mod_headers.c>
 <FilesMatch "\.(doc|docx|xls|xlsx|pdf|ppt|pptx)$">
  Header set X-Robots-Tag "noindex"
 </FilesMatch>
</IfModule>

robots.txt - 完成

User-agent: *
Disallow: /feed/
Disallow: /trackback/
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Disallow: /wp-
Disallow: /growers-portal
Disallow: /growers-portal/
Disallow: /grower_posts
Disallow: /grower_posts/
Sitemap: http://www.pureaussiepineapples.com.au/sitemap_index.xml

1 个答案:

答案 0 :(得分:0)

这些都不会阻止任何人阅读您的“机密”文件。为此,您确实希望根据登录用户限制访问。

robots标记会将文件保留在搜索结果之外。

但是,robots.txt不会停止搜索结果中的文件。 Google接受该指令表示他们无法读取该文件,但他们仍然可以将其包含在索引中。

这会引起一个有趣的场景。您的robots.txt会停止谷歌阅读机器人标签,因此不知道您是否希望将其从索引中删除。

因此,如果您不打算在物理上控制对文件的访问,我会使用robots标签,但不会使用robots.txt指令。