Question

我们最近在网页上添加了一个新部分。从本质上讲，它是一个购物产品目录，允许过滤不同的属性 - 帮助访问者将结果削减到他们需要的位置。

参数传递到URL中，我知道Google会将这些页面编入不同页面的索引，尽管它们基本上包含相同的内容。我知道我可以通过在Robots.txt文件中设置适当的规则来指定Google（和其他搜索引擎）可以索引的页面。

这是在相关网页上：http://www.reyniersaudio.com/recording-computer-studio-gear/audio-interfaces 正如您所看到的，如果您选择页面右侧的任何过滤器或选择“排序依据”选项，它将发送到一个新页面，该页面具有相同的URL +以“＆amp;”开头的字符串。 filters =“and”＆amp; order_by =“

例如：http://www.reyniersaudio.com/recording-computer-studio-gear/audio-interfaces/&filters=Form+Factor%3A%3A1U+Full+Rack&order_by=part_price::asc

我应该在robots.txt中添加哪些规则，告诉搜索引擎不要将这些冗余页面编入索引？

Answer 1

Google Webmaster Tools有一种方法可以让您直接告诉他们如何解释您的各种参数。无需使用robots.txt

Answer 2

如果您想阻止Googlebot抓取包含“＆amp;”的网址，您可以写信：

User-agent: Googlebot
Disallow: /*&

或者，如果您不希望任何机器人执行此操作，只需将Googlebot替换为*。

请注意，并非所有机器人都处理通配符。谷歌机器人和MSN机器人（无论它现在称之为什么）都可以。我认为Blekko的机器人确实如此。我也知道我的确如此。有些可能没有，因为通配符不是原始robots.txt规范的一部分（从来就不是“真正的”标准）。

Robots.txt - 如何设置规则以不使用参数索引页面

2 个答案: