html - 如何忽略网页抓取工具？

时间：2011-08-01 15:27:00

标签： html ip web-crawler bots

我有一个页面可以计算用户（已注册的，访客，各类用户......）访问过多少次。

每次查看页面时，我都会更新数据库中的字段;是的，如果页面快速刷新，但我不介意这一点。

当然，当一些机器人/爬虫扫描我的网站时，他们会增加这个值，我会摆脱这个。那么，是否有一个要忽略的IP地址列表？或者某种机制可以帮助我做到这一点？

答案 0 :(得分：3)

另一种方法是使用ajax。大多数抓取工具都不会解析javascript。

答案 1 :(得分：1)

IP地址可以更改，因此它不是检测访问者是否是机器人的最佳方式。相反，我建议在HTTP请求参数中查看用户代理字符串。

以下是用户代理字符串列表：http://www.user-agents.org/。特别注意类型R下的“机器人，爬行器，蜘蛛”。

答案 2 :(得分：1)

大多数人没有静态IP地址。您是否设置了robots.txt以拒绝访问抓取工具/漫游器？您可以定期查询日志文件，尝试识别那些不遵守robots.txt的日志文件，尽管用户代理很容易被欺骗/更改。