我需要更改从外部流进入bigquery的每一行的格式,并且由于这些行的格式几乎无法查询,因此我应该更改格式并将其保存在其他数据集下。
由于我是Google Cloud的新手(我比较精通aws echosystem),因此我想知道什么是最好的方法,因为我理解dataprep无法更改整个格式,所以我假设我需要将其加载到spark或hadoop,然后将数据推回到big-query。
我的用例是这个
{"dimensions": {
"date": "20180717",
"name": "general",
"params": [{
"key": "value",
"value": {
"string_value": null,
"int_value": "0",
"float_value": null,
"double_value": null
}
}, {
"key": "somevent",
"value": {
"string_value": "app12",
"int_value": null,
"float_value": null,
"double_value": null
}
}, {
"key": "category",
"value": {
"string_value": "regist",
"int_value": null,
"float_value": null,
"double_value": null
}
}, {
"key": "act",
"value": {
"string_value": "enter",
"int_value": null,
"float_value": null,
"double_value": null
}
}
],
"timestamp_micros": "1531792452128000",
"previous_timestamp_micros": "1531662845053000",
"value_in_usd": null
}
}
例如,我想按所有key:category的计数进行分组,这意味着如果类别值实际上是键而string_value位于顶级,这对我来说将很简单。
有什么想法?