分析api奇怪的结果与采样数据

时间:2011-12-27 17:18:32

标签: google-analytics google-analytics-api

我正在开发一个侧边栏,以便在管理中的帖子详细信息旁边整合Google Analytics分析统计信息。

要了解google analytics api,我使用Google自己提供的data feed query explorer进行了一些测试。

经过几次测试后,我注意到一个奇怪的行为,我会用一个实际的例子来恢复。 我需要知道哪些关键字将人们带到了给定的网址,我想知道从这些关键字中获得的点击次数。我还想要这些信息的3个不同数据范围:每日关键字,每月关键字和整体关键字......

这是我使用的一组参数:

ids         = <myTableId>
dimensions  = ga:keyword
metrics     = ga:visits
segment     =
filters     = ga:pagePath=~<myUrl>$
sort        =
start-date  =
end-date    =
start-index =
max-results =
max-results = 50

当我尝试检索一天的数据时(例如start-date = 2011-12-27end-date = 2011-12-27),一切似乎都正常。

例如,对于我的网址/programmazione/lo-schiaccianoci-in-3d-andrei-konchalovsky-2-dicembre-2011.film,我得到了以下结果:

ga:keyword                                  ga:visits
---                                         --- 
(not set)                                   1
lo schiaccianoci film a roma                1
lo schiaccianoci film programmazione roma   1
lo schiaccianoci film roma                  1
lo schiaccianoci programmazione a roma      1
programmazione film lo schiaccianoci a roma 1
schiaccianoci film programmazione           1
schiaccianoci film roma                     1

如果我延长时间范围,我会开始有奇怪的行为。如果我将请求扩展到上一个请求的同一个月的所有日期,我预计至少会检索一天中所有关键字(可能具有更高的点击次数),但无论如何我得到的结果更少(并且警告说“此结果基于采样数据”):

ga:keyword                      ga:visits 
---                             ---
(not set)                       31
lo schiaccianoci film roma 2011 31

如果我尝试检索全面数据(从我创建页面的第一天到当天),情况就更糟了:我没有数据!

所以问题是我的方法有什么问题?

---更新---

我发现了这个错误报告:http://code.google.com/p/analytics-issues/issues/detail?id=160 你觉得它有关系吗?

1 个答案:

答案 0 :(得分:3)

如果您的数据被采样,那么它的质量将非常差。抽样似乎是基于总访问次数,因此如果您将请求缩短到较短的时间段,通常会取消抽样。当您尝试仅请求一天的数据时,您自己就会看到这一点。

要解决此问题,您必须提出多个请求并自行聚合 - 这没有任何意义,但这是解决问题的唯一方法。我们检查结果集中的示例标志并减少时间段并在循环中重新请求,直到我们获得所有干净的数据。

我自己的分析显示,抽样访问次数的40%是非抽样值的5%或更多。这是为了访问。唯一身份访问者不会在抽样中计算(它只会返回访问次数),而像转化这样的较小数据点会变得更加不稳定。