Question

我正在为机器人配置robots.txt文件，并且无法真正了解我应该阻止哪些目录。当然，我已经在互联网上阅读了一些信息，但是到目前为止我想知道的和我发现的信息之间存在一些差距。所以，如果你能帮助我并回答一些问题会很好：

我应该在robots.txt停止机器人的操作？这不是那么简单。例如，我在根目录中有一个PHP文件INDEX（几乎包含所有内容），dir中包含引擎，名为ADMIN。在这个目录中有很多目录和文件，其中一些实际上是根文件夹中的INDEX正在使用的数据。这里的重点是，如果我将从机器人中阻止ADMIN dir，它是否仍然能正常获取INDDI中从ADMIN dir获取的所有数据？
和以前一样，有一个带有PHP脚本的INDEX PHP文件，它为下一页生成自动链接（当然有限;取决于ADMIN目录中的数据量）。这通常被机器人索引为普通链接以及此链接后面的所有数据吗？
如果我想从机器人中阻止ADMIN dir及其中的所有文件，是否足以写出来？
```
User-agent: *
Disallow: /ADMIN/
```

Answer 1

Bots不关心你的内部服务器端系统（好吧，他们开始时看不到它）。

他们就像人类访问者一样访问您的网站：通过关注链接（来自您自己的网站，来自外部网站，来自您的站点地图等），有些人可能还会“猜测”网址。

所以重要的是你的网址。

如果你有一个不想让机器人访问的网址（“抓取”），请在你的robots.txt中禁止它。

此robots.txt

# hosted at http://example.com/

User-agent: *
Disallow: /ADMIN/

会禁止抓取以下网址：

但仍允许以下网址抓取：