关于Google的AJAX抓取规范,如果服务器为#!
网址返回一个的东西(即一个JavaScript密集的文件),那么 else #!替换为?_escaped_fragment_=
时,(即,页面的“html快照”)到Googlebot,感觉就像隐藏在我身上一样。毕竟,Googlebot如何确保服务器返回#!
和?_escaped_fragment_=
网址的善意等效内容。然而,这就是AJAX抓取规范实际上告诉网站管理员要做的事情。我错过了什么吗? Googlebot如何确保服务器在两种情况下都返回相同的内容?
答案 0 :(得分:1)
抓取工具不知道。但它甚至都不知道那些返回普通ol'html的网站 - 根据抓取工具或已知IP头使用的http标头编写隐藏网站的代码非常容易。
请参阅此相关问题:How does Google Know you are Cloaking?
大多数似乎都是猜想,但似乎有各种各样的检查,在欺骗普通浏览器标题和实际真人看页面之间有所不同。
继续猜测,谷歌程序员的能力肯定不会超出谷歌编写一种实际检索用户看到的爬虫形式的能力 - 毕竟,他们有自己的浏览器可以做到这一点。这样做会非常耗费CPU,但对于偶尔的抽查可能是有意义的。