鉴于一个1 TB的数据集来自几百个csv文件中的来源,并且自然地划分为两个大表,那么将数据存储在Google云端存储中的最佳方式是什么?按日期分区不适用,因为数据相对静态且仅每季度更新一次。是否最好将所有数据合并为两个大文件并将每个数据映射到BigQuery表?分区更好吗?如果是这样,基于什么?是否存在超过BigQuery性能下降的阈值文件大小?
答案 0 :(得分:0)
取决于用例:
问题: "我想查询并在BiqQuery中创建了一个表,但只有一部分数据总计为几GB。我的问题是,如果我将数据保存在一个巨大的文件GCS中,或者我应该拆分它吗?"
答案: 只需将其全部加载到BigQuery中即可。 BigQuery早餐吃TB.