禁止抓取CDN网站

时间:2013-06-06 03:33:27

标签: apache seo cdn

所以我有一个网站http://www.example.com

JS / CSS /图像来自CDN - http://xxxx.cloudfront.nethttp://cdn.example.com;他们都是一样的东西。现在CDN只提供任何类型的文件,包括我的PHP页面。谷歌也以某种方式抓住了该CDN网站;实际上是两个网站 - 来自cdn.example.com和来自http://xxxx.cloudfront.net。考虑

  1. 我不是在尝试设置子域或镜像站点。如果发生这种情况,这是我试图建立CDN的副作用。
  2. CDN是一些Web服务器,不一定是Apache。我不知道那是什么类型的服务器。
  3. CDN上没有请求处理。它只是从原始服务器获取东西。我想,你不能把自定义文件放在CDN上;它只是从原始服务器获取东西。无论您需要放在CDN上,都来自原始服务器。

  4. 如何阻止PHP页面的抓取?

  5. 我是否应该允许从cdn.example.com或example.com抓取图像? HTML中的图像链接都是cdn.example.com。如果我只允许从example.com抓取图像,那么几乎没有任何东西可以抓取 - 没有指向此类图像的链接。如果我允许从cdn.example.com抓取图像,那么它是否会泄漏SEO的好处?
  6. 我考虑过的一些替代方案,基于stackoverflow答案:

    1. 编写自定义robot_cdn.txt并根据HTTP_HOST提供自定义robots_cdn.txt。这是堆栈溢出的许多答案。
    2. 从子域投放新的robots.txt。正如我上面解释的那样,我认为CDN不能像子域一样对待。
    3. 当HTTP_HOST是cdn.example.com到www.example.com
    4. 时,301重定向

      建议?

      与此相关的问题,例如How Disallow a mirror site (on sub-domain) using robots.txt?

1 个答案:

答案 0 :(得分:0)

您可以将robots.txt放在根目录中,以便使用cdn.-yourdomain-.com/robots.txt提供。在此robots.txt中,您可以禁止所有具有以下设置的抓取工具

User-agent: *
Disallow: /