应用错误收集

我需要一些关于将数据加载到Redshift数据仓库以进行分析的策略的指导。我们有大约40个SQL数据库，每个数据库代表一个客户，每个数据库是相同的。我有一个与40相同的表结构的SQL数据库，但是每个表都有一个名为“customer”的附加列，它将捕获该记录的来源。我们对记录进行了一些额外的ETL处理。

总共我们在所有40个数据库中都有大约50 GB的数据。查看在AWS's site上更新/插入数据的建议流程，他们建议创建临时表，然后合并数据。我可以这样做，但我也可以从表中删除所有数据并重新加载它，因为我每次都从源头读取。建议的方法是什么？

从多个数据库构建Redshift数据仓库的最佳策略

0 个答案: