我有多个JSON文件。这些文件具有两个嵌套字段。这些文件每天生成一次,因此我需要每天在BigQuery表中执行插入和更新操作。我在图像中共享了表架构。
如何对嵌套字段执行更新操作?
答案 0 :(得分:2)
有点晚了,但如果有人在搜索。 如果可以使用标准SQL:
INSERT INTO your_table (optout_time, clicks, profile_id, opens, ... )
VALUES (
1552297347,
[
STRUCT(1539245347 as ts, 'url1' as url),
STRUCT(1539245341 as ts, 'url2' as url)
],
'whatever',
[
STRUCT(1539245347 as ts),
STRUCT(1539245341 as ts)
],
...
)
答案 1 :(得分:1)
BigQuery UI仅提供JSON导入以创建新表。因此,要将文件的内容流式传输到已经存在的表BigQuery中,您可以使用client library以您喜欢的编程语言编写一个小程序。
我将假设您的数据以行分隔的JSON形式显示,如下所示:
{"optout_time": 1552297349, "clicks": {"ts": 1539245349, "url": "www.google.com"}, "profile_id": "foo", ...}
{"optout_time": 1532242949, "clicks": {"ts": 1530247349, "url": "www.duckduckgo.com"}, "profile_id": "bar", ...}
该作业的python脚本如下所示。它以json文件名作为命令行参数:
import json
import sys
from google.cloud import bigquery
dataset_id = "<DATASET-ID>" # the ID of your dataset
table_id = "<TABLE-ID>" # the ID of your table
client = bigquery.Client()
table_ref = client.dataset(dataset_id).table(table_id)
table = client.get_table(table_ref)
for f in sys.argv[1:]:
with open(f) as fh:
data = [json.loads(x) for x in fh]
client.insert_rows_json(table, data)
自动处理嵌套。
有关这种操作在其他语言中的外观的指针,您可以查看一下documentation。