被先前的问题困扰:SO google-analytics-domain-data-without-filtering
我一直在尝试自己的基本分析系统。
MySQL表:
hit_id, subsite_id, timestamp, ip, url
subsite_id让我深入到一个文件夹(如上一个问题所述)。
我现在可以获得以下指标:
我现在将我的数据与Google Analytics中的数据进行比较,发现 Google每个指标的值都较低。也就是说,我自己的设置比谷歌更多的点击率。
所以我开始从各种网络抓取工具,Google,Yahoo& amp;到目前为止Dotbot。
简短问题:
这些数据仅用于我们自己的“子网站排名系统”,但我想向我的用户展示一些基本数据(页面浏览量,最受欢迎的页面等)供他们参考。
答案 0 :(得分:1)
许多人出于隐私原因阻止Google Analytics。
答案 1 :(得分:0)
客户端装备与服务器端装置的报告不足是这些比较的通常结果。
以下是我在遇到这些研究时试图调和差异的方法:
数据源记录在服务器端集合中,但不记录在客户端:
来自 移动设备,不支持javascript(这可能是一个 差异的重要来源 两个集合之间 技术 - 例如,07年1月comScore study显示英国的19% Internet用户访问Internet 来自移动设备)
点击蜘蛛,机器人(你 已提到)
与javascript页面标记相比,服务器端集合倾向于以更高的保真度记录的数据源/事件(更少的漏报):
点击防火墙后面的用户, 特别是企业 防火墙 - 防火墙阻止页面标记, 加上一些配置为 拒绝/删除cookie。
点击已停用的用户 浏览器中的javascript - 五 百分比,根据W3C Data
来自退出页面的用户点击 在加载之前。再一次,这是一个 比你更大的差异来源 可能会想。最多 经常被引用study来 支持这是由斯通进行的 Temple Consulting,其中表明了这一点 独特访客的差异 两个相同站点之间的流量 使用相同的Web配置 分析系统,但有所不同 只是因为js跟踪代码是 放在页面的底部 在一个网站,以及顶部 另一页中的页面是 4.3 %
FWIW,这是我用来删除/识别蜘蛛,机器人等的方案:
监控我们的请求 robots.txt 文件:当然会过滤掉来自同一个网站的所有其他请求 IP地址+用户代理(不是全部 蜘蛛会请求robots.txt 当然,但微不足道的错误, 对此资源的任何请求都是 可能是机器人。
比较用户代理和IP地址 针对已发布的列表: iab.net 和 user-agents.org 发布这两个 列表似乎是最多的 广泛用于此目的
模式分析:这里没什么复杂的; 我们将(i)页面浏览视为一个 时间函数(即点击一个 很多链接每个200毫秒 页面是证明的); (ii)路径 “用户”遍历网站, 是系统的,完整的还是 差不多(比如跟着一个 反向跟踪算法);及(iii) 精确定时访问(例如,凌晨3点 每一天)。
答案 2 :(得分:0)
最大的原因是用户必须启用JavaScript并加载整个页面,因为代码通常位于页脚中。 Awstars,像你这样的其他服务器端解决方案将获得一切。此外,分析能够很好地识别机器人和刮刀。