我需要在bigquery表中加载大约100万行。我的方法是将数据写入云存储,然后使用load api一次加载多个文件。 最有效的方法是什么?我可以将写入并行化为gcs部分。当我调用load api时,我传入所有的uris,所以我只需要调用一次。我不确定这种加载是如何在后端进行的。如果我传入多个文件名,这个加载会在多个进程中运行吗?如何确定每个文件的大小以获得最佳性能? 感谢
答案 0 :(得分:3)
将所有百万行放在一个文件中。如果文件未压缩,BigQuery可以与许多工作者并行读取它。
来自https://cloud.google.com/bigquery/quota-policy
BigQuery可以读取高达4GB的压缩文件(.gz)。
BigQuery可以读取高达5000GB的未压缩文件(.csv,.json,...)。 BigQuery会想出如何并行阅读它 - 你不必担心。