不久前谷歌宣布它的抓取工具现在能够在页面上索引ajax生成的内容(你只需遵循一些规则)。但在我的情况下,我需要确保任何搜索引擎无法抓取我的ajax生成的内容。所以,问题是:
如何防止搜索引擎索引ajax生成的内容?
非常感谢!
答案 0 :(得分:1)
一个好的开始就是阅读Google's documentation这个主题。
如果您没有任何标签,那么只需像往常一样在robots.txt中屏蔽此页面。谷歌应该尊重这一点,但请记住,其他爬虫,特别是那些鲜为人知的爬虫可能不会。
想到的另一个想法是检查AJAX请求上的用户代理。但话说回来,这并不能防止用户代理欺骗,因此仍然会有一些胭脂爬虫的子集来获取您的敏感内容。
你可能会找到一些其他的解决方案,也许是一种智能的JavaScript破解,这会阻止大多数抓取工具下载你的内容,但这种方法永远不可靠或不可持续,因为最终,有些人全天候致力于改善爬虫。
如果您的目标是确保某些内容未被编入索引,那么它是否与AJAX无关。任何敏感数据都需要隐藏在某种身份验证或像Captcha这样的图灵测试之后。