Question

如何告诉抓取工具/漫游器不要将任何具有/ node / pattern的网址编入索引？以下是从第一天开始，但我注意到谷歌仍然索引了大量的网址 / node / in，例如www.mywebsite.com/node/123/32

禁止：/ node /

是否有任何声明没有索引任何具有/ node /的URL 我应该写下面的内容：禁止：/ node / *

更新：真正的问题是：禁止：/ node / 在robots.txt中，Google已将此网址下的网页编入索引，例如www.mywebsite.com/node/123/32

/ node /不是物理目录，这是drupal 6如何显示它的内容，我想这是我的问题，节点不是目录，只是drupal为内容生成的URL的一部分，我该如何处理这个？这会有用吗？

禁止：/ * node

由于

Answer 1

Disallow: /node/将禁止以/node/开头的任何网址（在主机之后）。不需要星号。

因此它将阻止www.mysite.com/node/bar.html，但不会阻止www.mysite.com/foo/node/bar.html。

如果你想阻止任何包含/node/的内容，你必须写Disallow: */node/

另请注意，Googlebot可以将robots.txt缓存最多7天。因此，如果您今天对robots.txt进行了更改，可能需要在Googlebot更新robots.txt副本前一周。在此期间，它将使用其缓存副本。

Answer 2

Disallow: /node/*正是您想要做的。搜索引擎在其robots.txt表示法中支持通配符，*字符表示“任何字符”。有关详情，请参阅Google's notes on robots.txt。

<强>更新

另一种确保搜索引擎不在目录中的方法，以及它下面的所有目录，都是用机器人HTTP标头阻止它们。这可以通过将以下内容放在node目录中的htaccess文件中来完成：

Header set x-robots-tag: noindex

Answer 3

你原来的Disallow很好。 Jim Mischel的评论似乎已经出现，并且让我想知道是否只是花时间让Googlebot获取更新的robots.txt然后取消相关网页的索引。

还有一些额外的想法：

即使您已将其包含在robots.txt中，您的网页网址也可能会显示在Google搜索结果中。请参阅：http://support.google.com/webmasters/bin/answer.py?hl=en&answer=156449（“...虽然Google不会抓取或索引robots.txt阻止的网页内容，但如果我们在网络上的其他网页上找到这些网址，我们仍可能将其编入索引。”）。对许多人来说，这是违反直觉的。

其次，我强烈建议您在Google网站站长工具（https://www.google.com/webmasters/tools/home?hl=en）中验证您网站的所有权，然后使用Health-＆gt;“抓取为Google”等工具查看与检索您的网站相关的实时诊断信息页。（结果是否表明robots.txt正在阻止抓取？）

我没有使用它，但Bing有一个类似的工具：http://www.bing.com/webmaster/help/fetch-as-bingbot-fe18fa0d。使用Google，Bing等提供的诊断工具在网站上执行实时诊断似乎是值得的。

这个问题有点陈旧，所以我希望你已经解决了原来的问题。

robots.txt - 排除包含“/ node /”的任何网址

3 个答案: