将所有数据转换为bigquery

时间:2018-07-18 13:15:29

标签: google-cloud-platform google-bigquery bigdata analytics

我需要更改从外部流进入bigquery的每一行的格式,并且由于这些行的格式几乎无法查询,因此我应该更改格式并将其保存在其他数据集下。

由于我是Google Cloud的新手(我比较精通aws echosystem),因此我想知道什么是最好的方法,因为我理解dataprep无法更改整个格式,所以我假设我需要将其加载到spark或hadoop,然后将数据推回到big-query。

我的用例是这个

{"dimensions": {
        "date": "20180717",
        "name": "general",
        "params": [{
                "key": "value",
                "value": {
                    "string_value": null,
                    "int_value": "0",
                    "float_value": null,
                    "double_value": null
                }
            }, {
                "key": "somevent",
                "value": {
                    "string_value": "app12",
                    "int_value": null,
                    "float_value": null,
                    "double_value": null
                }
            }, {
                "key": "category",
                "value": {
                    "string_value": "regist",
                    "int_value": null,
                    "float_value": null,
                    "double_value": null
                }
            }, {
                "key": "act",
                "value": {
                    "string_value": "enter",
                    "int_value": null,
                    "float_value": null,
                    "double_value": null
                }
            }
        ],
        "timestamp_micros": "1531792452128000",
        "previous_timestamp_micros": "1531662845053000",
        "value_in_usd": null
    }
}

例如,我想按所有key:category的计数进行分组,这意味着如果类别值实际上是键而string_value位于顶级,这对我来说将很简单。

有什么想法?

0 个答案:

没有答案