我试图将一些记录批量加载到BigQuery,但是上传甚至数千条记录需要很长时间。
我使用以下命令加载gzip压缩的JSON文件。该文件有~2k行,每行约200列:
./bin/bq load --project_id=my-project-id --source_format=NEWLINE_DELIMITED_JSON dataset.table /tmp/file.json.gz
Waiting on bqjob_r3a269dd7388c7b8e_000001579a6e064f_1 ... (50s)
Current status: DONE
此命令需要约50秒才能加载记录。由于我想加载至少100万条记录,这需要大约7个小时,这对于一个应该处理数PB数据的工具来说似乎太多了。
是否有可能加快这个过程?
答案 0 :(得分:1)
尝试使用--nosync标志。这将启动一个基于bigQuery的异步作业,发现它具有更好的性能。
最好,我建议将file.json.gz存储在Google云端存储中。
./bin/bq load --nosync