我的网站内容有限。我希望我的网站出现在搜索结果中,但我不希望它被公开。
我是否有办法允许抓取工具抓取我的网站,但阻止他们将其公开?
我找到的最接近的解决方案是Google First Click Free,但即使它要求我第一次展示内容。
答案 0 :(得分:6)
为什么要让人们搜索他们点击链接时无法访问的页面?它在技术上可能使其变得困难(如果useragent包含'googlebot',请检查您的身份验证代码,但如果他们希望您的内容足够糟糕,那么没有什么可以阻止人们伪装这个用户),但很大程度上没有意义。
google的官方专线(IIRC,但在任何地方找不到这个)都是因为故意试图向人们用户看到的googlebot显示不同的内容而受到惩罚。
答案 1 :(得分:2)
你几乎被Google First Click Free锁定了。您唯一的其他解决方案是冒着违反网站管理员规则的风险。
如果您使用Google First Click Free,则可以保护您的部分内容。一种方法是对较长的文章或论坛进行分页,并且不允许对其他内容进行爬网。然后,可以提示用户查找其余内容以注册您的站点。
更高级的方法是允许抓取所有内容并将其编入索引。通过分析识别您更有价值的内容;然后让Google知道您不再需要抓取“附加”或辅助页面(通过rel =,元机器人,x机器人等)。确保您也将这些页面归档,以便人们无法通过Google缓存访问内容。您已经有效地允许用户获取主要内容,但如果他们想要阅读更多内容,他们必须注册才能获得访问权。
这可能会被视为“灰色” - 因为您确实没有违反任何网站管理员指南,但您创建的实施并不常见。您没有向用户提供不同的内容,您明确告诉Google您做了什么,不想抓取,并且您同时保护了网站的价值。
当然,像这样的系统并不容易自动化,但如果你环顾四周,你会看到出版物或某些论坛/留言板做类似的事情。
答案 2 :(得分:1)
不是真的。
您可以为来自已知搜索引擎的请求设置Cookie,并允许这些请求访问您的内容,但这不会阻止人们欺骗他们的请求,或使用谷歌翻译等代理信息。
答案 3 :(得分:1)
但这将是很多黑客攻击,你的网站将会进入荒芜的地方(或者你会将其从索引索引中删除)。
和/或您可以购买自己的小谷歌(称为谷歌企业)http://www.google.com/enterprise/search/index.html然后您的谷歌可以访问它,但它不会得到酒吧。可用。
但是再次阅读你的问题:这可能不是你想要的?不是吗?