Bot流量识别策略

时间:2015-06-18 05:50:21

标签: iis logging google-analytics web-traffic webtrends

机器人。讨厌他们。

我需要完成的任务 像其他人一样,我想要计算内容片段的特色或显示为链接的次数,而不会被网络机器人人为地夸大这些数字。

为什么我们不能仅仅依赖Google Analytics GA可以很好地验证他们报告的数字,但是他们只报告主网址,而不是“相关项目”,因为“相关项目”每页面视图/每个用户不同,我们需要自己跟踪。

GA是一个很好的标准,我们可以反对它,但就是这样。

到目前为止我做了什么

  • 经过身份验证的用户永远不会烦恼防火墙维护IP地址 黑名单
  • 应用程序跟踪已知机器人
  • 每夜滚动作业拖网我们的日志寻找以下信号:
  • 持续的请求突发(每秒高页数超过x秒)
  • 请求IP地址块(x.y.z.245,.246,.247,.248等)不能巧合地通过我们的内容同时访问 时间)
  • 着陆页的模式+每页的请求,按顺序,快速连续(人们很少阅读每篇文章,而不是那么快)

我在寻找什么 不是模糊的建议,而是可操作的算法,或最佳实践,或描述如何实际实现方法的文章,至少有一些伪代码片段。我不希望得到一颗银弹,但我知道有办法解决这个我没见过的问题。我只需要看一张好白纸或其他东西。

我看过一百万次

  • “我们公司采用浏览器实现多层次方法 挑战和后端分析,等等等等“听起来很棒,我确信投资者喜欢它,一个真实的例子怎么样?
  • 厌倦了CIO-Speak。 “我们把隐藏的字段放在我们的表格上,就是这样 叫做蜜罐!“

任何真正可行的事情都会非常感激!

0 个答案:

没有答案