我有一个子域设置,我为除了一个IP之外的所有IP返回403。 我还想避免网站被搜索引擎编入索引,这就是我将robots.txt添加到子域根目录的原因。
但是,由于我在每个请求返回403的子域名时,抓取工具在请求robots.txt文件时也会收到403.
根据google,如果机器人,txt返回403,它仍会尝试抓取该网站。
这周围有吗?很想听听你的想法。
答案 0 :(得分:1)
使用robots.txt,您可以禁止抓取,而不是索引。
您可以禁止使用HTML meta
- robots
或相应的HTTP标头X-Robots-Tag
建立索引(但不能抓取)。
所以你有三个选择:
白名单/robots.txt
以便以200答案。符合规定的机器人不会抓取您主机上的任何内容(robots.txt除外),但如果是他们以某种方式找到它们(例如,如果从另一个站点链接)。
User-agent: *
Disallow: /
向每个页面添加meta
- robots
元素。符合漫游操作的人可能会抓取,但不会编制索引。但这只适用于HTML文档。
<meta name="robots" content="noindex" />
为每个文档发送X-Robots-Tag
标题。符合规定的漫游器可能会抓取,但它们不会编入索引。
X-Robots-Tag: noindex
(每个请求发送403本身可能是一个强烈的信号,没有什么有趣的东西可以看;但是当然要做什么取决于机器人。)