noindex遵循Robots.txt

时间:2012-08-25 08:08:40

标签: indexing search-engine robots.txt robot nofollow

我有一个已在搜索引擎中编入索引的wordpress网站。

我编辑了Robots.txt以禁止搜索索引中的某些目录和网页。

我只知道如何使用allow和disallow,但不知道如何在Robots.txt文件中使用follow和nofollow。

我在谷歌搜索的时候在某个地方读到我可以拥有不会在Google中编入索引的网页但会被抓取以进行网页搜索。这可以通过禁止Robots.txt中的网页来实现,并使用follow for the webpages。

请告诉我如何在Robots.txt文件中使用follow和nofollow。

由于

萨米特

3 个答案:

答案 0 :(得分:1)

Google确实在robots.txt中识别出Noindex:指令。这是Matt Cutts谈论它:http://www.mattcutts.com/blog/google-noindex-behavior/

如果您在robots.txt中为Google索引中已有的页面添加“Disallow”,您通常会发现该页面保留在索引中,就像鬼一样,剥离了其关键字。我想这是因为他们知道他们不会抓取它,并且他们不希望索引包含bit-rot。因此,他们将页面描述替换为“由于此网站的robots.txt而无法获得此结果的说明 - 了解详情。”

所以,问题仍然存在:我们如何从Google删除该链接,因为“Disallow”不起作用?通常情况下,您需要在相关页面上使用元机器人noindex,因为如果Google看到此更新,Google实际上会从索引中删除该页面,但在机器人文件中使用该Disallow指令时,他们永远不会知道它。

因此,您可以从robots.txt中删除该网页的Disallow规则,并在页面标题中添加元机器人noindex标记,但现在您必须等待Google返回并查看您告诉他们忘记的页面约。

您可以在主页上创建一个新链接,希望Google能够获得提示,或者只需将Noindex规则直接添加到robots.txt文件中即可避免全部内容。在上面的帖子中,Matt说这将导致删除链接。

答案 1 :(得分:0)

不,你不能。 您可以设置要阻止的目录和哪些机器人,但您无法通过robots.txt设置nofollow 在页面上使用robots元标记来设置nofollow。

答案 2 :(得分:0)

a。)follow / no follow和index / no index规则不适用于robots.txt(设置常规网站规则),但适用于页面上的元机器人标记(设置此特定网页的规则)

More info about Meta-Robots

b。)Google不会抓取不允许的网页,但可以在SERP上对其进行索引(使用来自入站链接或Dmoz等网站目录的信息)。
话虽如此,你可以从中获得PR值。

More info about Googlebot's indexing behavior