如何告诉抓取工具/漫游器不要将任何具有/ node / pattern的网址编入索引? 以下是从第一天开始,但我注意到谷歌仍然索引了大量的网址 / node / in,例如www.mywebsite.com/node/123/32
禁止:/ node /
是否有任何声明没有索引任何具有/ node /的URL 我应该写下面的内容: 禁止:/ node / *
更新: 真正的问题是: 禁止:/ node / 在robots.txt中,Google已将此网址下的网页编入索引,例如www.mywebsite.com/node/123/32
/ node /不是物理目录,这是drupal 6如何显示它的内容,我想这是我的问题,节点不是目录,只是drupal为内容生成的URL的一部分,我该如何处理这个?这会有用吗?
禁止:/ * node
由于
答案 0 :(得分:6)
Disallow: /node/
将禁止以/node/
开头的任何网址(在主机之后)。不需要星号。
因此它将阻止www.mysite.com/node/bar.html,但不会阻止www.mysite.com/foo/node/bar.html。
如果你想阻止任何包含/node/
的内容,你必须写Disallow: */node/
另请注意,Googlebot可以将robots.txt缓存最多7天。因此,如果您今天对robots.txt进行了更改,可能需要在Googlebot更新robots.txt副本前一周。在此期间,它将使用其缓存副本。
答案 1 :(得分:0)
Disallow: /node/*
正是您想要做的。搜索引擎在其robots.txt表示法中支持通配符,*字符表示“任何字符”。有关详情,请参阅Google's notes on robots.txt。
<强>更新强>
另一种确保搜索引擎不在目录中的方法,以及它下面的所有目录,都是用机器人HTTP标头阻止它们。这可以通过将以下内容放在node
目录中的htaccess文件中来完成:
Header set x-robots-tag: noindex
答案 2 :(得分:0)
你原来的Disallow很好。 Jim Mischel的评论似乎已经出现,并且让我想知道是否只是花时间让Googlebot获取更新的robots.txt然后取消相关网页的索引。
还有一些额外的想法:
即使您已将其包含在robots.txt中,您的网页网址也可能会显示在Google搜索结果中。请参阅:http://support.google.com/webmasters/bin/answer.py?hl=en&answer=156449(“...虽然Google不会抓取或索引robots.txt阻止的网页内容,但如果我们在网络上的其他网页上找到这些网址,我们仍可能将其编入索引。”)。对许多人来说,这是违反直觉的。
其次,我强烈建议您在Google网站站长工具(https://www.google.com/webmasters/tools/home?hl=en)中验证您网站的所有权,然后使用Health-&gt;“抓取为Google”等工具查看与检索您的网站相关的实时诊断信息页。 (结果是否表明robots.txt正在阻止抓取?)
我没有使用它,但Bing有一个类似的工具:http://www.bing.com/webmaster/help/fetch-as-bingbot-fe18fa0d。使用Google,Bing等提供的诊断工具在网站上执行实时诊断似乎是值得的。
这个问题有点陈旧,所以我希望你已经解决了原来的问题。