如何在Google数据准备中取消嵌套Google Analytics(分析)自定义维度

时间:2018-11-07 13:03:48

标签: google-bigquery google-cloud-dataprep

背景故事: 我们使用Google Analytics(分析)来跟踪我们网站上的用户行为。每天将数据导出到Big Query。我们的实现非常复杂,并且使用了大量自定义维度。

要求: 1.数据需要导入我们的内部数据库,以实现更好和更具战略意义的见解。 2.该流程无需人工干预即可运行

问题: Google Analytics(分析)数据必须采用统一格式,以便我们可以将其导入数据库。

问题:如何使用Google Data Prep取消嵌套自定义维度数据?

是什么样子?

----------------
customDimensions
----------------
[{"index":10,"value":"56483799"},{"index":16,"value":"·|·"},{"index":17,"value":"N/A"}]

我需要它看起来像什么?

----------------------------------------------------------
customDimension10 | customDimension16 | customDimension17
----------------------------------------------------------
56483799          | ·|·                | N/A

我知道如何使用Big Query界面中的标准SQL查询来实现这一目标,但我确实希望拥有一个自动执行此操作的Google Data Prep流。

1 个答案:

答案 0 :(得分:0)

定义平面格式,然后首先在BigQuery中创建它。 您可以

  • 创建一个大表,并在表中的所有数组上使用CROSS JOIN s重复几个值
  • (每个数组)
  • 创建多个表(并使用ID)将它们连接起来,例如
    • 用于会话自定义维度的串联fullvisitorid / visitstarttime
    • 对于匹配为fullvisitorid / visitstarttime / hitnumber的匹配
    • 对于产品串联fullvisitorid / visitstarttime / hitnumber / productSku

第二个选项需要花费更多的精力,但是可以节省存储空间,因为您无需为所有内容重复所有信息。