如何停止谷歌抓取未来页面

时间:2012-07-15 03:21:51

标签: php .htaccess web-crawler

当我开发我的网站时。我在一个地方打错了,例如,我的所有页面都是dir1 / dir2 / page.htm / par1-par2,但是我的拼写错误是dir1 / dir2 / page / par1-par2(注意:没有.htm)。

它仅在生产1天,但谷歌一直在抓取这些链接。如何阻止Google这样做?

顺便说一下,这不是1页,而是数百或数千页。

3 个答案:

答案 0 :(得分:2)

尝试使用robots.txt拒绝访问此页面(网址)

http://www.robotstxt.org/robotstxt.html

http://support.google.com/webmasters/bin/answer.py?hl=en&answer=156449

在此处测试robots.txt:http://www.frobee.com/robots-txt-check/

patterns must begin with / because robots.txt patterns always match absolute URLs. 
* matches zero or more of any character. 
$ at the end of a pattern matches the end of the URL; elsewhere $ matches itself. 
* at the end of a pattern is redundant, because robots.txt patterns always match any URL which begins with the pattern.

答案 1 :(得分:1)

如果页面存在(可能是因为你使用了mod_rewrite)并且没有找到自定义页面而没有发送http 410 Gone标题header("HTTP/1.0 410 Gone");那么google就不会知道它已被删除并将其索引相同。

你需要添加正确的标题或删除页面或不渲染你自己的404,所以它命中你的服务器404,然后谷歌将从索引中删除页面,也删除页面不会发生过夜:< / p>

您还可以将该网址添加到robots.txt文件中,但也不能保证从索引中删除该网页,您可以像其他人所说的那样联系谷歌,但不能保证得到回复或删除。

User-agent: *
Disallow: /dir1/dir2/page/par1-par2
祝你好运。

答案 2 :(得分:-1)

Google有一个表单,您可以要求它从索引中删除页面。

查看此链接的信息:

http://support.google.com/webmasters/bin/answer.py?hl=en&answer=164734