如何防止Google bot抓取特定页面

时间:2011-11-18 03:48:59

标签: apache

我有一个页面,其中包含许多我不希望Google抓取的链接。 有办法吗?

3 个答案:

答案 0 :(得分:3)

在HTTP根目录中创建robots.txt文件。如果您的网站位于http://domain.com,请将robots.txt放在可以在http://domain.com/robots.txt加载的位置。

User-agent: *
Disallow: /somewhere_i_dont_want_google_to_crawl.php
Disallow: /dont_crawl_this_directory/

这是Stack Overflow网站上真正实用的example

答案 1 :(得分:2)

您可以在HTTP根目录中使用robots.txt,也可以使用元标记(如果您的网页是HTML)来停止它:

<meta name="googlebot" content="noindex" />

有关更多示例,请参阅this website

答案 2 :(得分:1)

结帐robots.txt file

但是不要做whitehouse.gov的白痴管理员所做的事情并在此文件中列出他们想保密的一切

哦,最后一件事 - 不要相信它 - 它“应该阻止一个爬虫”,但我不会是一个合法的案例