Question

我有一个子域设置，我为除了一个IP之外的所有IP返回403。我还想避免网站被搜索引擎编入索引，这就是我将robots.txt添加到子域根目录的原因。

但是，由于我在每个请求返回403的子域名时，抓取工具在请求robots.txt文件时也会收到403.

根据google，如果机器人，txt返回403，它仍会尝试抓取该网站。

这周围有吗？很想听听你的想法。

Answer 1

使用robots.txt，您可以禁止抓取，而不是索引。

您可以禁止使用HTML meta - robots或相应的HTTP标头X-Robots-Tag建立索引（但不能抓取）。

所以你有三个选择：

白名单/robots.txt以便以200答案。符合规定的机器人不会抓取您主机上的任何内容（robots.txt除外），但如果是他们以某种方式找到它们（例如，如果从另一个站点链接）。
```
User-agent: *
Disallow: /
```
向每个页面添加meta - robots元素。符合漫游操作的人可能会抓取，但不会编制索引。但这只适用于HTML文档。
```
<meta name="robots" content="noindex" />
```
为每个文档发送X-Robots-Tag标题。符合规定的漫游器可能会抓取，但它们不会编入索引。
```
X-Robots-Tag: noindex
```

（每个请求发送403本身可能是一个强烈的信号，没有什么有趣的东西可以看;但是当然要做什么取决于机器人。）