您可以设置一个只有谷歌机器人才能看到的页面。

工作原理：

您基本上设置了一个服务器，它像客户端的浏览器一样，并且“位于”提供HTML和资产（JS / CSS /图像）的“真实服务器”和Crawler Bot之间。此服务器称为预渲染服务器，它只将数据发送给僵尸程序，而不是发送给真正的客户端，因为它有自己的映射使用它的URL。网址与您网页的任何网址一样，但最后可能会添加一些特殊内容（可能）。

预呈现服务器就像浏览器一样，因此解析了Javascript，并且只有在页面准备就绪时（您需要在您的某处小心地触发ready命令）在调用了所有ajax并且内容已经“安定下来”之后的代码，并且只有在调用该命令时，预呈现服务器才会将内容提供给机器人，因此机器人会看到一个“静态页面”，“用勺子喂它”。

https://developers.google.com/webmasters/ajax-crawling/docs/learn-more#what-the-user-sees-what-the-crawler-sees

为了使您的AJAX应用程序可以抓取，您的网站需要   遵守新协议。该协议基于以下内容：



该网站采用AJAX抓取方案。



对于每个动态生成内容的网址，您的服务器都会提供一个HTML快照，即用户的内容（带有   浏览器）看到了。通常，此类URL将是AJAX URL，即URL   例如，包含哈希片段   www.example.com/index.html#key=value，其中＃key = value是哈希值   分段。 HTML快照是页面上显示的所有内容   JavaScript执行完毕后。



搜索引擎会对HTML快照编制索引，并在搜索结果中提供原始的AJAX网址。

这种技术设置起来不是那么容易，但它是可能的。

是的，可以通过HTTP_USER_AGENT检测Google Bot，但您可能会将Google Ban和PR设置为0。

为google bot爬虫提供不同的页面

2 个答案:

工作原理：