Question

我有一个页面，其中包含许多我不希望Google抓取的链接。有办法吗？

Answer 1

在HTTP根目录中创建robots.txt文件。如果您的网站位于http://domain.com，请将robots.txt放在可以在http://domain.com/robots.txt加载的位置。

User-agent: *
Disallow: /somewhere_i_dont_want_google_to_crawl.php
Disallow: /dont_crawl_this_directory/

这是Stack Overflow网站上真正实用的example。

Answer 2

您可以在HTTP根目录中使用robots.txt，也可以使用元标记（如果您的网页是HTML）来停止它：

<meta name="googlebot" content="noindex" />

有关更多示例，请参阅this website。

Answer 3

但是不要做whitehouse.gov的白痴管理员所做的事情并在此文件中列出他们想保密的一切

哦，最后一件事 - 不要相信它 - 它“应该阻止一个爬虫”，但我不会是一个合法的案例