作为高级Google Analytics / BigQuery客户,我们的问题是,哪些数据更准确?
我倾向于倾向于将BigQuery更准确,因为我们实际上可以看到原始数据,但我们并没有深入了解Google Analyitc用于计算其数字的方法。
我也认为很多都与SAMPLING有关。
当您计算单个网页的总浏览量之类的简单内容时,Google Analytics数字会在 .00001%中排列为BigQuery:
sum(case when regexp_match(hits.page.pagepath,r'(?i:/contact.aspx)') and hits.type = "page" then 1 else 0 end) as total_pageviews
当您为单个页面计算更复杂的内容(如“唯一身份系统浏览量”)时,Google Analytics数字 5%大于BigQuery。请注意,它最多采样100万:
count(distinct (case when regexp_match(hits.page.pagepath,r'(?i:/contact.aspx)') and hits.type = "page" then concat(fullvisitorid, string(visitid)) end), 1000000) as unique_pageviews
我很想知道其他人的想法或Google开发者自己可以解释的内容。
答案 0 :(得分:3)
如果您是高级客户,我假设这是因为您拥有一个包含大量数据的大型网站。如果数据过多,Google AnalyticsAPI会对您的数据进行抽样。您可以尝试通过提高采样级别来防止这种情况。即使采样级别设置为高精度,您仍然可以从API获取采样数据。
检查从API返回的Json,它会告诉您数据是否正在被采样。
Big Query不会对您的数据进行采样,高级客户可以通过采样数据使用API,但我认为您必须与Google联系以设置该数据。
Big Queries支持的更大一点是,您不仅限于7个维度,还有10个指标,就像您使用Google AnalyticsAPI一样。
注意:我不是Google开发人员,但我是Google Analytics的Google开发人员专家。
答案 1 :(得分:1)
我是BigQuery的忠实粉丝。我也使用过Google Analytics(分析)。所以问题是关于数据更准确的地方。
嗯,这个问题的答案总是如此:“数据更准确,越接近它的起源”。 BigQuery是Google所有数据的底层存储。这是收集,索引数据然后通过SQL接口访问的地方。
Google Analytics是一款开发时考虑了大量免费帐户的工具。为了支持免费账户,GA需要很好地扩展。为了扩展,公司通过预先聚合数据来优化存储。
所以你真的要比较两件事:预先汇总/预聚合数据(GA)和原始累积数据(BigQuery)。你信任哪个?
现在,听起来还有第二个问题:“如何从BigQuery获得准确的聚合?” BigQuery充满了ANSI不兼容的SQL,这对于即席查询很难记住。最好在BigQuery之上连接BI工具,这样就可以以一致的方式探索数据(即相同的阈值/舍入)。