Robots.txt - 如何设置规则以不使用参数索引页面

时间:2011-11-22 06:05:02

标签: search-engine robots.txt

我们最近在网页上添加了一个新部分。从本质上讲,它是一个购物产品目录,允许过滤不同的属性 - 帮助访问者将结果削减到他们需要的位置。

参数传递到URL中,我知道Google会将这些页面编入不同页面的索引,尽管它们基本上包含相同的内容。我知道我可以通过在Robots.txt文件中设置适当的规则来指定Google(和其他搜索引擎)可以索引的页面。

这是在相关网页上:http://www.reyniersaudio.com/recording-computer-studio-gear/audio-interfaces 正如您所看到的,如果您选择页面右侧的任何过滤器或选择“排序依据”选项,它将发送到一个新页面,该页面具有相同的URL +以“&”开头的字符串。 filters =“and”& order_by =“

例如:http://www.reyniersaudio.com/recording-computer-studio-gear/audio-interfaces/&filters=Form+Factor%3A%3A1U+Full+Rack&order_by=part_price::asc

我应该在robots.txt中添加哪些规则,告诉搜索引擎不要将这些冗余页面编入索引?

2 个答案:

答案 0 :(得分:0)

Google Webmaster Tools有一种方法可以让您直接告诉他们如何解释您的各种参数。无需使用robots.txt

答案 1 :(得分:0)

如果您想阻止Googlebot抓取包含“&”的网址,您可以写信:

User-agent: Googlebot
Disallow: /*&

或者,如果您不希望任何机器人执行此操作,只需将Googlebot替换为*

请注意,并非所有机器人都处理通配符。谷歌机器人和MSN机器人(无论它现在称之为什么)都可以。我认为Blekko的机器人确实如此。我也知道我的确如此。有些可能没有,因为通配符不是原始robots.txt规范的一部分(从来就不是“真正的”标准)。