所以我有一个网站http://www.example.com。
JS / CSS /图像来自CDN - http://xxxx.cloudfront.net或http://cdn.example.com;他们都是一样的东西。现在CDN只提供任何类型的文件,包括我的PHP页面。谷歌也以某种方式抓住了该CDN网站;实际上是两个网站 - 来自cdn.example.com和来自http://xxxx.cloudfront.net。考虑
CDN上没有请求处理。它只是从原始服务器获取东西。我想,你不能把自定义文件放在CDN上;它只是从原始服务器获取东西。无论您需要放在CDN上,都来自原始服务器。
如何阻止PHP页面的抓取?
我考虑过的一些替代方案,基于stackoverflow答案:
建议?
与此相关的问题,例如How Disallow a mirror site (on sub-domain) using robots.txt?
答案 0 :(得分:0)
您可以将robots.txt放在根目录中,以便使用cdn.-yourdomain-.com/robots.txt提供。在此robots.txt中,您可以禁止所有具有以下设置的抓取工具
User-agent: *
Disallow: /