禁止仅在robots.txt中以数字结尾的网页

时间:2015-01-22 13:38:47

标签: robots.txt

是否可以告诉Google不要抓取这些网页

/blog/page/10
/blog/page/20
…
/blog/page/100

这些基本上是带来博客帖子数据的Ajax调用。

我在robots.txt中创建了这个:

User-agent: *
Disallow: /blog/page/*

但是现在我需要另一个我想要的页面

/blog/page/start

有没有办法告诉机器人只有以数字结尾的页面 例如

User-agent: *
Disallow: /blog/page/(:num)

当我尝试验证robots.txt文件时,我也遇到了错误:

  

enter image description here

1 个答案:

答案 0 :(得分:0)

遵循原始的robots.txt规范,这可行(适用于所有符合标准的机器人,包括Google的):

User-agent: *
Disallow: /blog/pages/0
Disallow: /blog/pages/1
Disallow: /blog/pages/2
Disallow: /blog/pages/3
Disallow: /blog/pages/4
Disallow: /blog/pages/5
Disallow: /blog/pages/6
Disallow: /blog/pages/7
Disallow: /blog/pages/8
Disallow: /blog/pages/9

这会阻止路径开始的所有网址/blog/pages/,后跟任意号码/blog/pages/9129831823/blog/pages/9.html,{{1等。) 因此,您不应附加/blog/pages/5/10/foo字符(它不是原始robots.txt规范中的通配符,而是not even needed,因为机器人会将其解释为通配符。)

Google支持robots.txt的一些功能,这些功能不属于原始robots.txt规范的一部分,因此(所有)其他机器人(例如*字段)不支持这些功能。但是,由于上面的robots.txt可行,因此无需使用它。