从多个数据库构建Redshift数据仓库的最佳策略

时间:2017-10-23 22:42:41

标签: amazon-web-services amazon-s3 amazon-redshift etl

我需要一些关于将数据加载到Redshift数据仓库以进行分析的策略的指导。我们有大约40个SQL数据库,每个数据库代表一个客户,每个数据库是相同的。我有一个与40相同的表结构的SQL数据库,但是每个表都有一个名为“customer”的附加列,它将捕获该记录的来源。我们对记录进行了一些额外的ETL处理。

总共我们在所有40个数据库中都有大约50 GB的数据。查看在AWS's site上更新/插入数据的建议流程,他们建议创建临时表,然后合并数据。我可以这样做,但我也可以从表中删除所有数据并重新加载它,因为我每次都从源头读取。建议的方法是什么?

0 个答案:

没有答案