我的htaccess文件中有一个重写规则,如下例所示:
RewriteRule ^company\/([a-zA-Z0-9]+)\/(.+)$ comp_inf.php?cid=$1
RewriteRule ^company\/([a-zA-Z0-9]+)\/img/(.*)$ ./img/$1 [L]
RewriteRule ^company\/([a-zA-Z0-9]+)\/css/(.*)$ ./css/$1 [L]
RewriteRule ^company\/([a-zA-Z0-9]+)\/js/(.*)$ ./js/$1 [L]
网址链接如下所示:
http://www.example.com/company/1
在谷歌搜索中,我发现了未在htaccess文件中定义的重复页面
他们看起来像这样:
http://www.example.com/company/1/page1.php
http://www.example.com/company/1/page2.php
我的问题是如何拒绝扫描这些页面,以及为什么这些扫描会发生在这两页上。
提前致谢。
奥弗。
答案 0 :(得分:0)
首先,您应该发送一个X-Robots noindex,nofollow header,其中包含那些意外被编入索引的页面。只要这些页面不再在谷歌上列出(speed this up),您就可以创建一个robots.txt,其中包含以下内容:
User-agent: *
Disallow: /company/*/*.php
注意http://www.example.com/company/1/与page1.php或page2.php的非绝对链接 - 例如:
<a href="page1.php">anchortext</a>