Question

我想抓一个网站。它的robots.txt文件中有以下内容，但我不确定它们不希望我这样做：

User-agent: *
Disallow: /click

没有click子目录。或者他们不希望我访问通常需要点击的任何内容（比如通过表单提交数据）？他们肯定不会在任何情况下变得简单 - 主页的表格GETS到设置由第三页读取的cookie的网站。

Answer 1

这意味着任何机器人都不应抓取路径以字符串click开头的网址。

例如，应阻止以下网址：

仍然允许使用以下网址：

您可以在http://www.robotstxt.org/wc/robots.html找到原始的robots.txt规范。