robots.txt禁止:/点击什么是不允许的?

时间:2013-01-15 22:30:21

标签: web-crawler robots.txt

我想抓一个网站。它的robots.txt文件中有以下内容,但我不确定它们不希望我这样做:

User-agent: *
Disallow: /click

没有click子目录。或者他们不希望我访问通常需要点击的任何内容(比如通过表单提交数据)?他们肯定不会在任何情况下变得简单 - 主页的表格GETS到设置由第三页读取的cookie的网站。

1 个答案:

答案 0 :(得分:2)

这意味着任何机器人都不应抓取路径字符串click开头的网址。

例如,应阻止以下网址:

  • example.com/click
  • example.com/click.html
  • example.com/click/
  • example.com/click/foo/bar
  • example.com/clicker

仍然允许使用以下网址:

  • example.com/foo/click
  • example.com/fooclick
  • example.com/clic

您可以在http://www.robotstxt.org/wc/robots.html找到原始的robots.txt规范。