我正在开发一个WordPress网站,该网站有一个登录门户网站,用户可以通过pdf,doc和其他一些格式访问“分类”文档。文件通过媒体管理器上传,因此始终存储在/ wp-content / uploads
中我需要确保搜索结果中不显示这些文件类型。我已经在.htaccess和robots.txt中制定了一些规则,我认为会起作用,但是很难测试,所以我希望有人可以浏览一下,让我知道他们是否会做我对他们的期望与否。有一件事我特别不确定:disallow: /wp-content/
会阻止x-robots-tag
被人看见吗?
.htaccess - 在# end Wordpress
# do not index specified file types
<IfModule mod_headers.c>
<FilesMatch "\.(doc|docx|xls|xlsx|pdf|ppt|pptx)$">
Header set X-Robots-Tag "noindex"
</FilesMatch>
</IfModule>
robots.txt - 完成
User-agent: *
Disallow: /feed/
Disallow: /trackback/
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Disallow: /wp-
Disallow: /growers-portal
Disallow: /growers-portal/
Disallow: /grower_posts
Disallow: /grower_posts/
Sitemap: http://www.pureaussiepineapples.com.au/sitemap_index.xml
答案 0 :(得分:0)
这些都不会阻止任何人阅读您的“机密”文件。为此,您确实希望根据登录用户限制访问。
robots标记会将文件保留在搜索结果之外。
但是,robots.txt不会停止搜索结果中的文件。 Google接受该指令表示他们无法读取该文件,但他们仍然可以将其包含在索引中。
这会引起一个有趣的场景。您的robots.txt会停止谷歌阅读机器人标签,因此不知道您是否希望将其从索引中删除。
因此,如果您不打算在物理上控制对文件的访问,我会使用robots标签,但不会使用robots.txt指令。