基本网站分析与Google数据不符

时间:2010-03-23 13:53:38

标签: google-analytics keyword metrics pageviews

被先前的问题困扰:SO google-analytics-domain-data-without-filtering

我一直在尝试自己的基本分析系统。

MySQL表:

hit_id, subsite_id, timestamp, ip, url

subsite_id让我深入到一个文件夹(如上一个问题所述)。

我现在可以获得以下指标:

  • 网页浏览量 - 由subsite_id和日期
  • 分组
  • 独特的网页浏览量 - 由subsite_id,日期,网址,IP分组(不是谷歌如何做到这一点!)
  • 通常“访问量最大的页面”,“可能的时间访问”等等。

我现在将我的数据与Google Analytics中的数据进行比较,发现 Google每个指标的值都较低。也就是说,我自己的设置比谷歌更多的点击率。

所以我开始从各种网络抓取工具,Google,Yahoo& amp;到目前为止Dotbot。

简短问题:

  1. 是否值得我整理一份清单 所有主要的爬行者打折,是 任何可能定期更改的清单?
  2. 还有其他明显的过滤器吗? 谷歌将申请GA 数据?
  3. 你还有什么其他数据 收集可能进一步使用 下线?
  4. 有什么变数 谷歌用来计算入口 搜索网站的关键字?
  5. 这些数据仅用于我们自己的“子网站排名系统”,但我想向我的用户展示一些基本数据(页面浏览量,最受欢迎的页面等)供他们参考。

3 个答案:

答案 0 :(得分:1)

许多人出于隐私原因阻止Google Analytics。

答案 1 :(得分:0)

客户端装备与服务器端装置的报告不足是这些比较的通常结果。

以下是我在遇到这些研究时试图调和差异的方法:

数据源记录在服务器端集合中,但不记录在客户端:

  • 来自    移动设备,不支持javascript(这可能是一个    差异的重要来源    两个集合之间    技术 - 例如,07年1月comScore study显示英国的19%    Internet用户访问Internet    来自移动设备)

  • 点击蜘蛛,机器人(你 已提到)

与javascript页面标记相比,服务器端集合倾向于以更高的保真度记录的数据源/事件(更少的漏报):

  • 点击防火墙后面的用户, 特别是企业 防火墙 - 防火墙阻止页面标记, 加上一些配置为 拒绝/删除cookie。

  • 点击已停用的用户 浏览器中的javascript - 五 百分比,根据W3C Data

  • 来自退出页面的用户点击 在加载之前。再一次,这是一个 比你更大的差异来源 可能会想。最多 经常被引用study来 支持这是由斯通进行的 Temple Consulting,其中表明了这一点 独特访客的差异 两个相同站点之间的流量 使用相同的Web配置 分析系统,但有所不同 只是因为js跟踪代码是 放在页面的底部 在一个网站,以及顶部 另一页中的页面是 4.3


FWIW,这是我用来删除/识别蜘蛛,机器人等的方案:

  1. 监控我们的请求 robots.txt 文件:当然会过滤掉来自同一个网站的所有其他请求 IP地址+用户代理(不是全部 蜘蛛会请求robots.txt 当然,但微不足道的错误, 对此资源的任何请求都是 可能是机器人。

  2. 比较用户代理和IP地址 针对已发布的列表: iab.net user-agents.org 发布这两个 列表似乎是最多的 广泛用于此目的

  3. 模式分析:这里没什么复杂的; 我们将(i)页面浏览视为一个 时间函数(即点击一个 很多链接每个200毫秒 页面是证明的); (ii)路径 “用户”遍历网站, 是系统的,完整的还是 差不多(比如跟着一个 反向跟踪算法);及(iii) 精确定时访问(例如,凌晨3点 每一天)。

答案 2 :(得分:0)

最大的原因是用户必须启用JavaScript并加载整个页面,因为代码通常位于页脚中。 Awstars,像你这样的其他服务器端解决方案将获得一切。此外,分析能够很好地识别机器人和刮刀。