阻止html页面被bot / crawler抓取并缓存

时间:2010-11-17 08:38:04

标签: html css

有没有办法阻止网页抓取工具抓取并缓存我面向公众的网络应用程序网站?

感谢。

5 个答案:

答案 0 :(得分:3)

您可以使用 Robots.txt

User-agent: *
Disallow: /

但它不是100%可靠,并非所有爬虫都会尊重这一点。

根据我最近学到的,唯一100%可靠的方法是让所有页面都安全。

答案 1 :(得分:2)

Robots.txt(已经建议)可以防止抓取。如果您只想阻止缓存,请将以下HTML添加到< head>部分:

<META NAME="ROBOTS" CONTENT="NOARCHIVE" />

答案 2 :(得分:1)

是的,您网站的根目录中的create a robots.txt file。周围还有很多其他interesting tutorials

答案 3 :(得分:1)

停止Google等搜索引擎的常用方法是在您网站的根目录中包含ROBOTS.TXT文件。

这是一篇关于这个主题的好文章http://www.javascriptkit.com/howto/robots.shtml

答案 4 :(得分:1)