为什么我的robots.txt会阻止Google抓取网页?

时间:2011-12-09 03:25:39

标签: seo search-engine google-crawlers duplicate-content

我对Google抓取的网页数量有一个“双重”问题,这可能与可能重复的内容(或不相关)有关系以及对SEO的影响。

有关我抓取的网页数和网页数的事实

两个月前我推出了一个新网站。今天,它有近150页(它每天都在增加)。这是我的站点地图中的页数。

如果我查看Google网站管理员中的“抓取统计信息”,我可以看到Google每天抓取的网页数量要大得多(参见下图)。 Google crawled up to 903 pages in a day

我不确定它实际上是好的,因为它不仅使我的服务器更繁忙(一天中903页下载5,6 MB),但我害怕它也会产生一些重复的内容。

我已经在谷歌(网站:mysite.com)上查了一下,它给了我1290页(但只有191页显示,除非我点击“重复搜索,包括省略的结果”。假设有191个是那些在我的站点地图中(我认为我有大约40页的重复内容的问题,但我只是更新了网站)。

关于我的robots.txt的事实

我使用robots.txt文件禁止所有抓取引擎转到包含参数的网页(请参阅下面的漫游器)以及“标签”。

User-Agent: *
Disallow: /administrator
Disallow: *?s
Disallow: *?r
Disallow: *?c
Disallow: *?viewmode
Disallow: */tags/*
Disallow: *?page=1
Disallow: */user/*

最重要的是标签。它们在我的网址中如下:

www.mysite.com/tags/Advertising/writing

它被robots.txt阻止(我已经与谷歌网站管理员联系),但它仍然存在于谷歌搜索中(但您需要点击“重复搜索并包含省略的结果。”)

我不希望抓取这些网页,因为它是重复内容(这是对关键字的搜索),这就是我将它们放入robots.txt的原因

最后,我的问题是:

为什么Google会抓取我在robots.txt中屏蔽的网页?

为什么谷歌索引页面已被阻止?这些网页是否被Google视为重复内容?如果是的话,我猜这对SEO来说很糟糕。

编辑:我不是问如何删除Google中索引的页面(我已经知道了答案)。

1 个答案:

答案 0 :(得分:1)

  

为什么google会抓取我在robots.txt中屏蔽的网页?为什么google会将我阻止的网页编入索引?

他们可能在您阻止之前抓取了它。您必须等到他们读取更新的robots.txt文件,然后相应地更新其索引。没有固定的时间表,但对于较新的网站来说通常会更长。

  

这些网页是否被视为重复内容?

你告诉我们。重复的内容是两个页面在两个或多个页面上具有相同或几乎相同的内容时。这是在您的网站上发生的吗?

阻止重复内容解决该问题的方法。您应该使用canonical URLs。阻止页面意味着您链接到您网站中的“黑洞”,这会损害您的SEO工作。规范URL阻止了这一点,并为其相关术语提供了规范URL,并且所有重复页面的所有链接