我可以使用robots.txt来阻止任何以数字开头的目录树吗?

时间:2012-11-13 04:01:35

标签: robots.txt

我甚至不确定这是否是解决这个问题的最佳方法,但是我的重写犯了一个暂时的错误,谷歌(可能还有其他人)选择了它,现在它已将它们编入索引并不断提出错误。

基本上,我是根据各种因素生成网址,其中一个因素是文章的ID,会自动生成。然后将它们重定向到正确的位置。

我第一次意外地设置了这样的东西:

/ 2343 /消息/ blahblahblah

/ 7645 /评论/ blahblahblah

这是一个问题有很多原因,主要是因为会有重复和东西没有指向正确的地方和yada yada。我现在把它们修好了:

/消息/ 2343 / blahblahblah

/评论/ 7645 / blahblahblah

这一切都很好。但我想阻止任何属于第一种模式的东西。换句话说,任何看起来像这样的东西:

* * =任何数字模式

/ * * / anythingelsehere

因此,谷歌(以及其他任何可能将错误内容编入索引的人)都不再试图查找这些已经搞砸了甚至不再存在的URL。这可能吗?我应该通过robots.txt吗?

2 个答案:

答案 0 :(得分:1)

您不需要为此设置robots.txt,只需为这些网址返回404错误,Google和其他搜索引擎最终会丢弃它们。

Google还提供了网站管理员工具,您可以使用这些工具来解压缩网址。我很确定其他主机也有类似的东西。

答案 1 :(得分:1)

要回答这个问题:是的,您可以屏蔽任何以数字开头的网址。

User-agent: *
Disallow: /0
Disallow: /1
Disallow: /2
Disallow: /3
Disallow: /4
Disallow: /5
Disallow: /6
Disallow: /7
Disallow: /8
Disallow: /9

它会阻止以下网址:

  • example.com/1
  • example.com/2.html
  • example.com/3/foo
  • example.com/4you
  • example.com/52347612

仍然允许使用这些网址:

  • example.com/foo/1
  • example.com/foo2.html
  • example.com/bar/3/foo
  • example.com/only4you