应用错误收集

适用于BigQuery的最佳Google云端存储

时间：2018-03-15 13:54:02

标签： google-bigquery google-cloud-storage

鉴于一个1 TB的数据集来自几百个csv文件中的来源，并且自然地划分为两个大表，那么将数据存储在Google云端存储中的最佳方式是什么？按日期分区不适用，因为数据相对静态且仅每季度更新一次。是否最好将所有数据合并为两个大文件并将每个数据映射到BigQuery表？分区更好吗？如果是这样，基于什么？是否存在超过BigQuery性能下降的阈值文件大小？

1 个答案:

答案 0 :(得分：0)

取决于用例：

查询数据=＆gt;然后从GCS加载到BigQuery中。
存储数据=＆gt;留在GCS。

问题： ＆＃34;我想查询并在BiqQuery中创建了一个表，但只有一部分数据总计为几GB。我的问题是，如果我将数据保存在一个巨大的文件GCS中，或者我应该拆分它吗？＆＃34;

答案： 只需将其全部加载到BigQuery中即可。 BigQuery早餐吃TB.