防止机器人索引受限访问子域

时间:2016-01-19 16:05:49

标签: indexing web-crawler subdomain http-status-code-403 robots.txt

我有一个子域设置,我为除了一个IP之外的所有IP返回403。 我还想避免网站被搜索引擎编入索引,这就是我将robots.txt添加到子域根目录的原因。

但是,由于我在每个请求返回403的子域名时,抓取工具在请求robots.txt文件时也会收到403.

根据google,如果机器人,txt返回403,它仍会尝试抓取该网站。

这周围有吗?很想听听你的想法。

1 个答案:

答案 0 :(得分:1)

使用robots.txt,您可以禁止抓取,而不是索引

您可以禁止使用HTML meta - robots或相应的HTTP标头X-Robots-Tag建立索引(但不能抓取)。

所以你有三个选择:

  • 白名单/robots.txt以便以200答案。符合规定的机器人不会抓取您主机上的任何内容(robots.txt除外),但如果是他们以某种方式找到它们(例如,如果从另一个站点链接)。

    User-agent: *
    Disallow: /
    
  • 向每个页面添加meta - robots元素。符合漫游操作的人可能会抓取,但不会编制索引。但这只适用于HTML文档。

    <meta name="robots" content="noindex" />
    
  • 为每个文档发送X-Robots-Tag标题。符合规定的漫游器可能会抓取,但它们不会编入索引。

    X-Robots-Tag: noindex
    

(每个请求发送403本身可能是一个强烈的信号,没有什么有趣的东西可以看;但是当然要做什么取决于机器人。)