我有一个页面,其中包含许多我不希望Google抓取的链接。 有办法吗?
答案 0 :(得分:3)
在HTTP根目录中创建robots.txt
文件。如果您的网站位于http://domain.com,请将robots.txt
放在可以在http://domain.com/robots.txt加载的位置。
User-agent: *
Disallow: /somewhere_i_dont_want_google_to_crawl.php
Disallow: /dont_crawl_this_directory/
这是Stack Overflow网站上真正实用的example。
答案 1 :(得分:2)
您可以在HTTP根目录中使用robots.txt
,也可以使用元标记(如果您的网页是HTML)来停止它:
<meta name="googlebot" content="noindex" />
有关更多示例,请参阅this website。
答案 2 :(得分:1)
但是不要做whitehouse.gov
的白痴管理员所做的事情并在此文件中列出他们想保密的一切
哦,最后一件事 - 不要相信它 - 它“应该阻止一个爬虫”,但我不会是一个合法的案例