以下是一种情况:
- Hive中有一个历史数据,并且每天都在增长。
- 每日新鲜数据以批处理的形式出现,并合并到上述数据中。
- 截至目前,以上流程已作为计划的Hive作业在Hadoop群集上运行。
- 以上设置将在AWS云上迁移。
现在的问题是如何设置集群:
- 如果我们设置连续运行的EMR集群,那么成本将太高,而且大部分时间集群也将被闲置(因为每天要分批处理一次或两次数据)
- 如果我们使用计划的EMR集群(实例队列),那么在处理时,我们将必须将存储(例如S3)中的完整历史数据复制到集群中以与新数据合并,这将花费太多时间数量巨大,而且经过处理后,也要存储在S3中。
请提出建议,哪种EMR集群在这里合适...