Robots.txt否认,#!网址

时间:2013-06-07 15:26:36

标签: javascript robots.txt

我正在尝试向robots.txt文件添加拒绝规则,以拒绝访问单个页面。

网站网址的工作方式如下:

Javascript然后根据URL交换显示的DIV。

我如何请求搜索引擎蜘蛛不列出以下内容:

提前致谢

2 个答案:

答案 0 :(得分:3)

你不能(本身)。搜索引擎无论如何都不会运行JavaScript,因此通常会忽略片段标识符。您只能拒绝从服务器请求的URL(没有片段标识符)。

Google会将hashbang映射到different URIs,你可以弄清楚它们是什么(你应该已经完成​​了因为这是使用哈希爆炸的重点)并将它们放在机器人中.TXT。

但是,Hash bangs是problematic at best,所以我要废弃它们,转而使用the history API,这样可以使用合理的URI。

答案 1 :(得分:1)

你实际上可以通过多种方式实现这一目标,但这里有两个最简单的方法。

您必须排除Googlebot要获取的网址,这不是AJAX hashbang值,而是排除翻译后的?_escaped_fragment_=key=value

在robots.txt文件中指定:

Disallow: /?_escaped_fragment_=/super-secret
Disallow: /index.php?_escaped_fragment_=/super-secret

如有疑问,请务必使用Google网站管理员工具»“Fetch As Googlebot”。

如果该网页已被Googlebot编入索引,则使用robots.txt文件不会将其从索引中删除。您应用robots.txt后必须使用Google网站管理员工具网址清除工具,或者您可以通过HTTP中的<meta>标记或X-Robots-Tag添加noindex command to the page头。

看起来像是:

<meta name="ROBOTS" content="NOINDEX, NOFOLLOW" />

X-Robots-Tag: noindex