是否可以告诉Google不要抓取这些网页
/blog/page/10
/blog/page/20
…
/blog/page/100
这些基本上是带来博客帖子数据的Ajax调用。
我在robots.txt中创建了这个:
User-agent: *
Disallow: /blog/page/*
但是现在我需要另一个我想要的页面
/blog/page/start
有没有办法告诉机器人只有以数字结尾的页面 例如
User-agent: *
Disallow: /blog/page/(:num)
当我尝试验证robots.txt文件时,我也遇到了错误:
答案 0 :(得分:0)
遵循原始的robots.txt规范,这可行(适用于所有符合标准的机器人,包括Google的):
User-agent: *
Disallow: /blog/pages/0
Disallow: /blog/pages/1
Disallow: /blog/pages/2
Disallow: /blog/pages/3
Disallow: /blog/pages/4
Disallow: /blog/pages/5
Disallow: /blog/pages/6
Disallow: /blog/pages/7
Disallow: /blog/pages/8
Disallow: /blog/pages/9
这会阻止路径开始的所有网址/blog/pages/
,后跟任意号码/blog/pages/9129831823
,/blog/pages/9.html
,{{1等。)
因此,您不应附加/blog/pages/5/10/foo
字符(它不是原始robots.txt规范中的通配符,而是not even needed,因为机器人会将其解释为通配符。)
Google支持robots.txt的一些功能,这些功能不属于原始robots.txt规范的一部分,因此(所有)其他机器人(例如*
字段)不支持这些功能。但是,由于上面的robots.txt可行,因此无需使用它。