如何防止除好的(google,bing,yahoo)网站内容以外的所有抓取工具?

时间:2010-03-09 14:53:50

标签: web-crawler

我只想让Google,Bing,Yahoo抓取我的网站来构建索引。但我不希望我的对面网站使用抓取服务来窃取我的网站内容。我该怎么办?

9 个答案:

答案 0 :(得分:2)

您可以阻止Google等对您的网站编制索引,但无法阻止恶意抓取工具执行此操作。

答案 1 :(得分:2)

为什么不尝试跟踪浏览模式 - 如果您获得大量点击或奇怪的浏览模式,而这些模式不会来自人类抛出验证码页面。

答案 2 :(得分:2)

尝试使用自定义抓取工具抓取google.com,看看他们做了什么,你也可以这样做:)。浏览模式是解决问题的关键:)。

答案 3 :(得分:2)

有许多方法可以检测爬网,但是当我们需要区分好爬虫和坏爬虫时,它很难。但有一种方法可以做到这一点。它实际上你必须使用你网站上的隐藏链接,这将检测所有爬虫和基于用户代理的好爬虫不要让他们读取隐藏的链接。这将帮助你不是100%而是70%以上。我试过了。

答案 4 :(得分:1)

我希望世界能够找到我,但我想隐身吗?我们中至少有一个人感到困惑......

答案 5 :(得分:1)

有两种类型的抓取工具  1.无渲染爬虫可以请求您的网站内容,而无需使用任何其他技术,如CSS,JavaScript,当然它是无渲染的  2.渲染的爬虫可能与您正在使用的大多数浏览器完全相同

要阻止所有抓取工具,您可能需要在您的网站上放置验证码,这很烦人。但是为了允许某个爬虫,您可以使用一些litle脚本来监视和防止坏爬虫,因为以下因素:  1.浏览器代理  2. IP地址可在一段时间内浏览您的网站多少页  3.检查用户是否可以执行JavaScript(不推荐,因为谷歌也可能使用无渲染爬虫)

答案 6 :(得分:0)

如果有人出去偷你的内容,他们很可能不会关心也不会遵守这些限制。

我能想到的唯一选择就是知道他们从何处爬行并阻止他们看到该网站。

答案 7 :(得分:0)

这是一个复杂的问题,但确定它可以解决或最小化。

完美的场景是应用一些复杂的IA技术来识别模式并保持阻止,禁止它们。您可以将其视为对您业务的安全威胁,但请记住,您需要在此处衡量权衡。例如,如果主要原因是避免浪费带宽,花费大量资金与完美的解决方案不合理或补偿。 看到我的观点?

我知道这个问题太旧了,但也许有人可以在这里继续看待另一种观点。

答案 8 :(得分:0)

您需要阻止抓取工具IP地址。

抓取新鲜IP地址 -

http://myip.ms/info/bots/Google_Bing_Yahoo_Facebook_etc_Bot_IP_Addresses.html