应用错误收集

noindex遵循Robots.txt

时间：2012-08-25 08:08:40

标签： indexing search-engine robots.txt robot nofollow

我有一个已在搜索引擎中编入索引的wordpress网站。

我编辑了Robots.txt以禁止搜索索引中的某些目录和网页。

我只知道如何使用allow和disallow，但不知道如何在Robots.txt文件中使用follow和nofollow。

我在谷歌搜索的时候在某个地方读到我可以拥有不会在Google中编入索引的网页但会被抓取以进行网页搜索。这可以通过禁止Robots.txt中的网页来实现，并使用follow for the webpages。

请告诉我如何在Robots.txt文件中使用follow和nofollow。

由于

萨米特

3 个答案:

答案 0 :(得分：1)

Google确实在robots.txt中识别出Noindex：指令。这是Matt Cutts谈论它：http://www.mattcutts.com/blog/google-noindex-behavior/

如果您在robots.txt中为Google索引中已有的页面添加“Disallow”，您通常会发现该页面保留在索引中，就像鬼一样，剥离了其关键字。我想这是因为他们知道他们不会抓取它，并且他们不希望索引包含bit-rot。因此，他们将页面描述替换为“由于此网站的robots.txt而无法获得此结果的说明 - 了解详情。”

所以，问题仍然存在：我们如何从Google删除该链接，因为“Disallow”不起作用？通常情况下，您需要在相关页面上使用元机器人noindex，因为如果Google看到此更新，Google实际上会从索引中删除该页面，但在机器人文件中使用该Disallow指令时，他们永远不会知道它。

因此，您可以从robots.txt中删除该网页的Disallow规则，并在页面标题中添加元机器人noindex标记，但现在您必须等待Google返回并查看您告诉他们忘记的页面约。

您可以在主页上创建一个新链接，希望Google能够获得提示，或者只需将Noindex规则直接添加到robots.txt文件中即可避免全部内容。在上面的帖子中，Matt说这将导致删除链接。

答案 1 :(得分：0)

不，你不能。您可以设置要阻止的目录和哪些机器人，但您无法通过robots.txt设置nofollow 在页面上使用robots元标记来设置nofollow。

答案 2 :(得分：0)

a。）follow / no follow和index / no index规则不适用于robots.txt（设置常规网站规则），但适用于页面上的元机器人标记（设置此特定网页的规则）

More info about Meta-Robots

b。）Google不会抓取不允许的网页，但可以在SERP上对其进行索引（使用来自入站链接或Dmoz等网站目录的信息）。
话虽如此，你可以从中获得PR值。

More info about Googlebot's indexing behavior