Question

是否可以告诉Google不要抓取这些网页

/blog/page/10
/blog/page/20
…
/blog/page/100

这些基本上是带来博客帖子数据的Ajax调用。

我在robots.txt中创建了这个：

User-agent: *
Disallow: /blog/page/*

但是现在我需要另一个我想要的页面

/blog/page/start

有没有办法告诉机器人只有以数字结尾的页面例如

User-agent: *
Disallow: /blog/page/(:num)

当我尝试验证robots.txt文件时，我也遇到了错误：

Answer 1

遵循原始的robots.txt规范，这可行（适用于所有符合标准的机器人，包括Google的）：

User-agent: *
Disallow: /blog/pages/0
Disallow: /blog/pages/1
Disallow: /blog/pages/2
Disallow: /blog/pages/3
Disallow: /blog/pages/4
Disallow: /blog/pages/5
Disallow: /blog/pages/6
Disallow: /blog/pages/7
Disallow: /blog/pages/8
Disallow: /blog/pages/9

这会阻止路径开始的所有网址/blog/pages/，后跟任意号码/blog/pages/9129831823，/blog/pages/9.html，{{1等。）因此，您不应附加/blog/pages/5/10/foo字符（它不是原始robots.txt规范中的通配符，而是not even needed，因为机器人会将其解释为通配符。）

Google支持robots.txt的一些功能，这些功能不属于原始robots.txt规范的一部分，因此（所有）其他机器人（例如*字段）不支持这些功能。但是，由于上面的robots.txt可行，因此无需使用它。

禁止仅在robots.txt中以数字结尾的网页

1 个答案: