更改数据捕获(CDC)-在AWS上缓慢更改维度(SCD2)

时间:2018-09-11 03:20:45

标签: amazon-web-services

以下是一种情况:

  1. Hive中有一个历史数据,并且每天都在增长。
  2. 每日新鲜数据以批处理的形式出现,并合并到上述数据中。
  3. 截至目前,以上流程已作为计划的Hive作业在Hadoop群集上运行。
  4. 以上设置将在AWS云上迁移。

现在的问题是如何设置集群:

  1. 如果我们设置连续运行的EMR集群,那么成本将太高,而且大部分时间集群也将被闲置(因为每天要分批处理一次或两次数据)
  2. 如果我们使用计划的EMR集群(实例队列),那么在处理时,我们将必须将存储(例如S3)中的完整历史数据复制到集群中以与新数据合并,这将花费太多时间数量巨大,而且经过处理后,也要存储在S3中。

请提出建议,哪种EMR集群在这里合适...

0 个答案:

没有答案