如何从Google Analytics中提取数据并从中构建数据仓库(webhouse)?

时间:2010-05-18 14:23:52

标签: google-analytics data-warehouse etl

我点击了流式数据,例如引荐网址,热门目标网页,热门退出页面以及Google Analytics中的网页浏览量,访问次数和退回度等指标。目前还没有数据库可以存储所有这些信息。我需要从这个数据中建立一个从头开始的数据仓库(我相信这就是所谓的web-house)。所以我需要从Google Analytics中提取数据并将其加载到仓库中,每天自动化。我的问题是: -

1)有可能吗?每天数据都会增加(有些指标或措施,例如访问量和一些新的推介网站),加载仓库的过程将如何进行?

2)什么ETL工具可以帮助我实现这一目标? Pentaho我相信有一种方法可以从Google Analytics中提取数据,是否有人使用它?这个过程怎么样? 除了答案之外,任何参考文献,链接都会受到赞赏。

6 个答案:

答案 0 :(得分:15)

答案 1 :(得分:3)

您可以使用Google提供的Data Export API或我们专门为您量身打造的服务:www.analyticspros.com/products/analytics-data-warehouse.html。

最佳,

-Caleb Whitmore www.analyticspros.com / www.analyticsformarketers.com

答案 2 :(得分:3)

正如Shiva所说,您可以随时通过Google API提取GA数据并自行存储。但是,如果您正在寻找具有成本效益的仓储工具,请试用Analytics Canvas @ http://www.analyticscanvas.com/

您还可以查看Google的App画廊,了解Google Analytics相关工具: http://www.google.com/analytics/apps/

答案 3 :(得分:2)

您可以随时通过其API提取GA(Google Analytics)数据,并构建您自己的数据仓库(DW)。在开始之前,您可能希望与业务用户坐在一起,清楚地了解业务需求。在DW环境中,有一个明确的目标和对业务用户需求的理解是非常重要的,因为您将保留长期存在且经常使用的事务历史记录。

假设业务用户定义了您需要继续使用的KPI(关键绩效指标),指标,维度和粒度,您可以在code.google.com/apis/analytics/上查看通过GA API提供的不同维度和指标文档/。然后,只需进行正确的API调用并获得所需内容即可。 DW活动涉及数据清理,提取,转换和加载(ETL)或ELT,并总结不同维度的事实。由于数据比在不同系统(从Web日志,外部供应商,Excel或文件等)中遇到的数据更清晰,您可以通过任何ETL工具(例如,Talend,Pentaho,SSIS等)简单地加载数据。 )或通过应用您的选择(Perl,Java,Ruby,C#等)。

对于每日负载,您需要在低用户流量时间(夜间加​​载)期间设计增量加载过程,仅拉取最近的数据,重复删除任何重复项,清除任何不合格的数据,处理错误的行等。

我在http://www.hiregion.com/2009/10/google-analytics-data-retriever-api-sem_25.html提供了一个示例GA API应用程序,它将为您提供入门的基本信息。

答案 4 :(得分:1)

关于在数据仓库中加载数据有两个重要规则

  1. 初始加载
  2. 增量数据加载
  3. 使用GA api进行设计时,需要加载特定日期范围的初始历史数据。这有其自身的复杂性,因为您可能遇到分段问题,数据丢失等。您需要处理分页等。

    初始数据加载完成后,您可以在增量模式下运行它,只需添加新数据。此数据将附加到相同的数据仓库表中,并且不会导致重复日期重复。<​​/ p>

    除此之外,GA经常更改其API,因此您也需要了解它。

    考虑到上述情况,我们发布了完全打包的data-warehouse with Google Analytics和Salesforce数据连接器。您可以查看详细信息,并了解如何设置自己的数据仓库http://www.infocaptor.com/google-analytics-datawarehouse

    您需要设计的最小值是某种背景守护程序,它可以每天运行或以某种频率运行。您将需要作业表来监视数据提取的成功和失败,以便它可以从错误发生的地方恢复。

    其他一些考虑因素 1.如果您运行相同数据范围的提取,会发生什么 2.如果某个工作在某些日期失败怎么办

    为DW目标表设置主键非常重要。在MySQL中,使用带有duplicate子句的insert语句将确保在重新加载数据时不会创建重复记录。

    设计的另一件事是您的暂存层。您从GA中提取数据并转储到暂存中。这样,如果加载到Target中有错误,您只需从登台重新加载即可。这样,您就不会增加GA API限制并节省带宽。

    您可以在此位置查看我们的完整设计 http://www.infocaptor.com/help/social_analytics___datawarehouse.htm

    你的DW努力是最好的。

答案 5 :(得分:0)

我们可以使用Pentaho Data Integration tool, pdi kettle将数据从谷歌分析导出到任何其他数据仓库(或)RDBMS(或)Hadoop。 Pentaho也可以免费Pentaho Community Edition使用。

只需按照此步骤转换Google Analytics中的数据即可 http://wiki.pentaho.com/display/EAI/Google+Analytics

该工具具有良好的用户友好性,成本和性能。感谢。