将Google Analytics(分析)资料汇入S3或Redshift

时间:2019-02-27 17:37:18

标签: google-analytics amazon-redshift etl google-analytics-v4 data-ingestion

我正在寻找将Google Analytics(分析)数据(以及历史数据)导入Redshift的选项。欢迎提供有关工具,API的任何建议。我在网上搜索,发现Stitch是ETL工具之一,可以帮助我更好地了解此选项和其他选项。

2 个答案:

答案 0 :(得分:1)

Google Analytics(分析)具有API(Core Reporting API)。这对于获取偶尔的KPI很有好处,但是由于API的限制,对于导出大量历史数据来说并不是很好。

对于大数据转储,最好使用Link to BigQuery(“ Link”,因为我想避免使用“ integration”一词,这意味着比您实际拥有的控制级别更大。)

设置指向BigQuery的链接非常容易-您可以在Google Cloud Console中创建一个项目,启用计费功能(BigQuery附带费用,不属于GA360合同),然后将您的电子邮件地址添加为BigQuery所有者在“ IAM&Admin”部分中,转到您的GA帐户,然后在GA Admin部分的“属性设置/产品链接/所有产品/ BigQuery链接”中输入BigQuery项目ID。此过程描述如下:https://support.google.com/analytics/answer/3416092

您可以在标准更新和流式更新之间进行选择-流式更新需要支付额外费用,但可以提供接近实时的数据。前者每天每8小时更新BigQuery中的数据3次。

导出的数据不是原始数据,它已经进行了会话化(即,虽然您每次点击将获得一行,但该点击的流量归因将基于会话)。

您将支付三种费用:一种用于导出到BigQuery,另一种用于存储,另一种用于实际查询。定价记录在这里:https://cloud.google.com/bigquery/pricing

除其他外,定价取决于地区。当涉及法律事务时,例如,存储数据的区域可能也很重要。如果您必须遵守GDPR,则您的数据应存储在欧盟中。确保正确地选择区域,因为在区域之间移动数据非常麻烦(您需要将表导出到Google Cloud存储并在适当的区域中重新导入它们)并且价格昂贵。

您不能只删除数据并进行新的导出-在您的第一个导出中,BigQuery会回填过去13个月的数据,但是每个视图只能这样做一次。因此,如果您需要历史数据更好地解决这个问题,因为如果您删除BQ中的数据,您将无法取回它。

我实际上对Redshift并不了解很多,但是根据您的评论,您想在Tableau中显示数据,并且Tableau直接连接到BigQuery。

我们使用自定义SQL查询将数据获取到Tableau(Google Analytics(分析)数据存储在每日表格中,而自定义SQL似乎是查询许多表中数据的最简单方法)。 BigQuery具有一个基于用户的缓存,只要查询不发生变化,它就会持续24小时,因此您无需为每次打开报告付费。保持成本不变是一个好主意-成本不是基于结果的大小,而是基于为产生所需结果而必须搜索的数据量,因此,如果查询时间较长,也许做几次连接,单个查询可能会花费数十欧元(乘以使用该查询的用户数量)。

答案 1 :(得分:0)

scitylana.com的一项服务可以将Google Analytics(分析)免费数据传递到S3。 您可以获得3年或更长时间。

提取是通过API完成的。该架构为命中级别,具有100多个维度/指标。 根据您认为的数据量,我认为GA360也可以做到这一点。