不允许robots.txt中的查询字符串仅用于一个网址

时间:2016-03-10 23:50:40

标签: seo web-crawler search-engine robots.txt search-engine-bots

所以我有一个网址chickens.com/hatching,它有可能被编入索引的潜在查询字符串,即chickens.com/hatching?type=fast。我肯定希望保留基本网址chickens.com/hatching,但没有查询参数。我想查询在其他页面上索引的参数,而不是这个,所以所有页面的捕获都不起作用。其次,我正在重写网址以删除尾部斜杠,这会抓住chickens.com/hatching/?type=fast以及chickens.com/hatching?type=fast吗?

这是否可以解决我的问题?

Disallow: /hatching?*

我听说这只适用于Google抓取工具......对于所有抓取工具是否有更强大的解决方案?

感谢您的帮助!非常感谢。

1 个答案:

答案 0 :(得分:1)

User-agent: *
Disallow: /hatching?
Disallow: /hatching/

此robots.txt将阻止其路径以/hatching?/hatching/开头的所有网址,例如:

  • /hatching?
  • /hatching?foo=bar
  • /hatching/
  • /hatching/foo
  • /hatching/?foo=bar

它仅使用原始robots.txt规范中的功能,因此所有符合标准的机器人都应该能够理解这一点。