打算在Snowflake上进行POC,只是想查看围绕将数据加载到雪花上的最佳做法:
答案 0 :(得分:1)
您的问题1.和2.似乎更多地是关于分区(或在Snowflake术语中的“集群”)而不是规范化。这也关系到性能与可维护性。
两个世界最好的是有一个表,其中Australia State
是聚簇键。正确的设置将允许有效的Query pruning。在Clustering Keys & Clustered Tables中了解更多信息。
重新。问题3.调查MERGE
。也许您还可以从阅读Working with SCD-Type-II in Snowflake
答案 1 :(得分:0)
我将以“最合理的方式对其进行“更新”和“使用”的方式加载数据”
这意味着我们有从PostgreSQL DB同步/流式传输的数据(实际上是许多形式),并且其中一些在加载时确定了尺寸(SCD1 / SCD2 / SCD6)。对于此数据,我们具有更新时间戳记,我们加载记录,锻炼更改并构建维度数据。
如果您已经具有尺寸数据,并且这只是一次数据移动。转储您拥有的表,然后加载它们。在雪花中创建新表的确很便宜,因此我们只是尝试了一些事情,并弄清楚了适合我们数据入口模式的东西,以及我们如何读取数据以改善/帮助集群,或避免了自动集群操作带来的成本浪费