我想抓一个网站。它的robots.txt文件中有以下内容,但我不确定它们不希望我这样做:
User-agent: *
Disallow: /click
没有click子目录。或者他们不希望我访问通常需要点击的任何内容(比如通过表单提交数据)?他们肯定不会在任何情况下变得简单 - 主页的表格GETS到设置由第三页读取的cookie的网站。
答案 0 :(得分:2)
这意味着任何机器人都不应抓取路径以字符串click
开头的网址。
例如,应阻止以下网址:
example.com/click
example.com/click.html
example.com/click/
example.com/click/foo/bar
example.com/clicker
仍然允许使用以下网址:
example.com/foo/click
example.com/fooclick
example.com/clic
您可以在http://www.robotstxt.org/wc/robots.html找到原始的robots.txt规范。