Question

我试图将一些记录批量加载到BigQuery，但是上传甚至数千条记录需要很长时间。

我使用以下命令加载gzip压缩的JSON文件。该文件有~2k行，每行约200列：

./bin/bq load --project_id=my-project-id --source_format=NEWLINE_DELIMITED_JSON dataset.table /tmp/file.json.gz
Waiting on bqjob_r3a269dd7388c7b8e_000001579a6e064f_1 ... (50s)
Current status: DONE

此命令需要约50秒才能加载记录。由于我想加载至少100万条记录，这需要大约7个小时，这对于一个应该处理数PB数据的工具来说似乎太多了。

是否有可能加快这个过程？

Answer 1

尝试使用--nosync标志。这将启动一个基于bigQuery的异步作业，发现它具有更好的性能。

最好，我建议将file.json.gz存储在Google云端存储中。

./bin/bq load --nosync

BigQuery

1 个答案: