我有一个页面可以计算用户(已注册的,访客,各类用户......)访问过多少次。
每次查看页面时,我都会更新数据库中的字段;是的,如果页面快速刷新,但我不介意这一点。
当然,当一些机器人/爬虫扫描我的网站时,他们会增加这个值,我会摆脱这个。那么,是否有一个要忽略的IP地址列表?或者某种机制可以帮助我做到这一点?
答案 0 :(得分:3)
另一种方法是使用ajax。大多数抓取工具都不会解析javascript。
答案 1 :(得分:1)
IP地址可以更改,因此它不是检测访问者是否是机器人的最佳方式。相反,我建议在HTTP请求参数中查看用户代理字符串。
以下是用户代理字符串列表:http://www.user-agents.org/。特别注意类型R下的“机器人,爬行器,蜘蛛”。
答案 2 :(得分:1)
大多数人没有静态IP地址。您是否设置了robots.txt以拒绝访问抓取工具/漫游器?您可以定期查询日志文件,尝试识别那些不遵守robots.txt的日志文件,尽管用户代理很容易被欺骗/更改。