机器人txt禁止外卡

时间:2013-01-10 00:32:07

标签: web-crawler robots.txt

我无法阻止谷歌抓取一些导致错误的网址。

我想停止

  • /项目/ 123984932842 /下载/ PDF
  • /项目/ 123984932842 /下载/ ZIP

但允许

  • /项目/ 123984932842
  • /项目/ 123984932842 /平

我尝试了项目/ * / download / pdf,但它似乎不起作用。有谁知道会发生什么?

2 个答案:

答案 0 :(得分:4)

/行的开头是否有Disallow:

User-agent: googlebot
Disallow: /project/*/download/pdf

答案 1 :(得分:0)

原始 robots.txt规范没有定义任何通配符,但Google(和其他一些人)将它们添加到解析器中。 但是,我猜你无论如何都不需要它们(正如Jim所说,这是错误的)。以下robots.txt(使用* wildcard)应该可以胜任:

User-agent: Googlebot
Disallow: /project/*/download