停止Google抓取我的网站

时间:2011-08-01 20:51:28

标签: web-config web-crawler

Google已经开始抓取我的网站,但是来自一个临时域名(beta.mydomain而不仅仅是mydomain),而且我只希望他抓取我的一些网页。因此,我想停止他们的抓取,只让他们抓取我在站点地图中指定的页面。我怎样才能做到这一点? (我知道如何添加站点地图,但是如何停止当前的抓取并请求他们只抓取站点地图)

更新:如果我杀了子域名beta.mydomain - 他们会“罚款”还是会继续浏览所有被杀页面并“不喜欢”他们?我可以在每个页面的标题中指定吗?

3 个答案:

答案 0 :(得分:2)

在您网站的根文件夹中创建一个名为“robots.txt”的文本文件。内部...

User-agent: *
Disallow: /thisfolder/
Disallow: /foo.html
Disallow: /andthisfoldertoo/
Disallow: /andthisfile.html

我将它用于项目文件。事实上,当我写这篇文章时,我想我会改变我在项目上工作的方式,并且总是把它们放在一个名为/ projects / project1 /的子目录中,所以一行会做...

Disallow: /projects/

我还为我的图像文件添加了一行。我不喜欢网络上的图片......

Disallow: /imgs/

答案 1 :(得分:1)

使用robots.txt,请参阅this site

答案 2 :(得分:1)

您可以从robots.txt文件开始。

See google's info here

我认为您已经从您所说的内容中查看了网站站长工具和站点地图?请注意,虽然站点地图有助于告诉谷歌抓取什么内容,但告诉他们不要抓取什么内容也不会很好。

为此,您需要使用robots.txt文件来阻止某些页面/文件夹。