保持网页抓取工具不在您的网站中

时间:2010-08-27 06:29:51

标签: web-crawler

网络开发中是否有任何方法可以确保网页抓取工具无法抓取您的网站?

4 个答案:

答案 0 :(得分:3)

确保?否。

你可以礼貌地问robots.txt(但是可以忽略它们),你可以用CAPTCHA来阻碍障碍(但是它们可以被打败并对普通用户施加障碍),你可以监控每个访问者寻找机器人模式的行为(但机器人可以代理周期和速率限制)。

答案 1 :(得分:1)

您可以在网站的根目录中放置一个包含以下内容的robots.txt文件,以防止文明机器人将其编入索引:

User-agent: *
Disallow: /

请注意,这不会阻止不文明的机器人将其编入索引。防止它们的唯一方法是使用Captcha等技术。

当然,最好使用专用的开发机器,在您的网站正在建设中时无法从互联网访问。

答案 2 :(得分:1)

您还可以拒绝基于抓取工具user agent的访问权限,当然这假设抓取工具使用的是与常规浏览器不同的用户代理。

答案 3 :(得分:0)

使用robots.txt指示或允许/禁止机器人为您的网站编制索引。