阻止搜索引擎抓取目录

时间:2014-03-12 03:57:42

标签: .htaccess robots.txt

我的网站有像这样的网址(最长)

http://www.example.com/xyz-pqr/abcd-efgh/123.html

所以最多有3个目录级别,但由于CMS和其他问题我的网站在搜索引擎中被索引超过3个目录级网址,

http://www.example.com/xyz-pqr/abcd-efgh/xyz-pqr/abcd-efgh/123.html
http://www.example.com/xyz-pqr/abcd-efgh/xyz-pqr/abcd-efgh/abcd-efgh/123.html

我想在robots.txt中编写代码,以便搜索引擎永远不会抓取超过3个目录级别。我该怎么做呢?提前谢谢......

1 个答案:

答案 0 :(得分:1)

我不是某些,但我认为以下内容应该有效:

User-agent: *
Disallow: /*/*/*/

所以,给定这两个网址:

http://www.example.com/xyz-pqr/abcd-efgh/123.html
http://www.example.com/xyz-pqr/abcd-efgh/foo-bar/123.html

第一个将被接受,因为它只有两个目录段(/xyz-pqr-abcd-efgh)。

第二个会被阻止,因为它有三个目录段。

任何更长的东西都会被封锁。