如何忽略网页抓取工具?

时间:2011-08-01 15:27:00

标签: html ip web-crawler bots

我有一个页面可以计算用户(已注册的,访客,各类用户......)访问过多少次。

每次查看页面时,我都会更新数据库中的字段;是的,如果页面快速刷新,但我不介意这一点。

当然,当一些机器人/爬虫扫描我的网站时,他们会增加这个值,我会摆脱这个。那么,是否有一个要忽略的IP地址列表?或者某种机制可以帮助我做到这一点?

3 个答案:

答案 0 :(得分:3)

另一种方法是使用ajax。大多数抓取工具都不会解析javascript。

答案 1 :(得分:1)

IP地址可以更改,因此它不是检测访问者是否是机器人的最佳方式。相反,我建议在HTTP请求参数中查看用户代理字符串。

以下是用户代理字符串列表:http://www.user-agents.org/。特别注意类型R下的“机​​器人,爬行器,蜘蛛”。

答案 2 :(得分:1)

大多数人没有静态IP地址。您是否设置了robots.txt以拒绝访问抓取工具/漫游器?您可以定期查询日志文件,尝试识别那些不遵守robots.txt的日志文件,尽管用户代理很容易被欺骗/更改。

相关问题