Question

我需要更改从外部流进入bigquery的每一行的格式，并且由于这些行的格式几乎无法查询，因此我应该更改格式并将其保存在其他数据集下。

由于我是Google Cloud的新手（我比较精通aws echosystem），因此我想知道什么是最好的方法，因为我理解dataprep无法更改整个格式，所以我假设我需要将其加载到spark或hadoop，然后将数据推回到big-query。

我的用例是这个

{"dimensions": {
        "date": "20180717",
        "name": "general",
        "params": [{
                "key": "value",
                "value": {
                    "string_value": null,
                    "int_value": "0",
                    "float_value": null,
                    "double_value": null
                }
            }, {
                "key": "somevent",
                "value": {
                    "string_value": "app12",
                    "int_value": null,
                    "float_value": null,
                    "double_value": null
                }
            }, {
                "key": "category",
                "value": {
                    "string_value": "regist",
                    "int_value": null,
                    "float_value": null,
                    "double_value": null
                }
            }, {
                "key": "act",
                "value": {
                    "string_value": "enter",
                    "int_value": null,
                    "float_value": null,
                    "double_value": null
                }
            }
        ],
        "timestamp_micros": "1531792452128000",
        "previous_timestamp_micros": "1531662845053000",
        "value_in_usd": null
    }
}

例如，我想按所有key：category的计数进行分组，这意味着如果类别值实际上是键而string_value位于顶级，这对我来说将很简单。

有什么想法？

将所有数据转换为bigquery

0 个答案: