Question

我一直在尝试自己的基本分析系统。

MySQL表：

hit_id, subsite_id, timestamp, ip, url

subsite_id让我深入到一个文件夹（如上一个问题所述）。

我现在可以获得以下指标：

我现在将我的数据与Google Analytics中的数据进行比较，发现 Google每个指标的值都较低。也就是说，我自己的设置比谷歌更多的点击率。

所以我开始从各种网络抓取工具，Google，Yahoo＆amp; amp;到目前为止Dotbot。

简短问题：

这些数据仅用于我们自己的“子网站排名系统”，但我想向我的用户展示一些基本数据（页面浏览量，最受欢迎的页面等）供他们参考。

Answer 1

许多人出于隐私原因阻止Google Analytics。

Answer 2

客户端装备与服务器端装置的报告不足是这些比较的通常结果。

以下是我在遇到这些研究时试图调和差异的方法：

数据源记录在服务器端集合中，但不记录在客户端：

来自 移动设备，不支持javascript（这可能是一个差异的重要来源两个集合之间技术 - 例如，07年1月comScore study显示英国的19％ Internet用户访问Internet 来自移动设备）
点击蜘蛛，机器人（你已提到）

与javascript页面标记相比，服务器端集合倾向于以更高的保真度记录的数据源/事件（更少的漏报）：

点击防火墙后面的用户，特别是企业防火墙 - 防火墙阻止页面标记，加上一些配置为拒绝/删除cookie。
点击已停用的用户浏览器中的javascript - 五百分比，根据W3C Data
来自退出页面的用户点击在加载之前。再一次，这是一个比你更大的差异来源可能会想。最多经常被引用study来支持这是由斯通进行的 Temple Consulting，其中表明了这一点独特访客的差异两个相同站点之间的流量使用相同的Web配置分析系统，但有所不同只是因为js跟踪代码是放在页面的底部在一个网站，以及顶部另一页中的页面是 4.3 ％

FWIW，这是我用来删除/识别蜘蛛，机器人等的方案：

监控我们的请求 robots.txt 文件：当然会过滤掉来自同一个网站的所有其他请求 IP地址+用户代理（不是全部蜘蛛会请求robots.txt 当然，但微不足道的错误，对此资源的任何请求都是可能是机器人。
比较用户代理和IP地址针对已发布的列表： iab.net 和 user-agents.org 发布这两个列表似乎是最多的广泛用于此目的
模式分析：这里没什么复杂的; 我们将（i）页面浏览视为一个时间函数（即点击一个很多链接每个200毫秒页面是证明的）; （ii）路径 “用户”遍历网站，是系统的，完整的还是差不多（比如跟着一个反向跟踪算法）;及（iii）精确定时访问（例如，凌晨3点每一天）。

Answer 3

最大的原因是用户必须启用JavaScript并加载整个页面，因为代码通常位于页脚中。 Awstars，像你这样的其他服务器端解决方案将获得一切。此外，分析能够很好地识别机器人和刮刀。