应用错误收集

更改数据捕获（CDC）-在AWS上缓慢更改维度（SCD2）

时间：2018-09-11 03:20:45

标签： amazon-web-services

以下是一种情况：

Hive中有一个历史数据，并且每天都在增长。
每日新鲜数据以批处理的形式出现，并合并到上述数据中。
截至目前，以上流程已作为计划的Hive作业在Hadoop群集上运行。
以上设置将在AWS云上迁移。

现在的问题是如何设置集群：

如果我们设置连续运行的EMR集群，那么成本将太高，而且大部分时间集群也将被闲置（因为每天要分批处理一次或两次数据）
如果我们使用计划的EMR集群（实例队列），那么在处理时，我们将必须将存储（例如S3）中的完整历史数据复制到集群中以与新数据合并，这将花费太多时间数量巨大，而且经过处理后，也要存储在S3中。

请提出建议，哪种EMR集群在这里合适...

0 个答案:

没有答案