适用于BigQuery的最佳Google云端存储

时间:2018-03-15 13:54:02

标签: google-bigquery google-cloud-storage

鉴于一个1 TB的数据集来自几百个csv文件中的来源,并且自然地划分为两个大表,那么将数据存储在Google云端存储中的最佳方式是什么?按日期分区不适用,因为数据相对静态且仅每季度更新一次。是否最好将所有数据合并为两个大文件并将每个数据映射到BigQuery表?分区更好吗?如果是这样,基于什么?是否存在超过BigQuery性能下降的阈值文件大小?

1 个答案:

答案 0 :(得分:0)

取决于用例:

  • 查询数据=>然后从GCS加载到BigQuery中。
  • 存储数据=>留在GCS。

问题: "我想查询并在BiqQuery中创建了一个表,但只有一部分数据总计为几GB。我的问题是,如果我将数据保存在一个巨大的文件GCS中,或者我应该拆分它吗?"

答案: 只需将其全部加载到BigQuery中即可。 BigQuery早餐吃TB.