我有10个amazon ec2节点集群用于每天的数据处理,我想每天批处理使用所有10个节点(仅2小时处理),一旦生成报告数据点,我想关闭5节点并且只有5个节点在当天剩余的时间内活动以进行成本优化。
我的复制因子为3.
在某些情况下,所有3个数据块(实际和复制块)都存储在我正在关闭的5个节点中。因此,我无法正确读取数据。
我可以在cloudera管理器中进行一些设置,将特定的数据库或特定表保存到给定的节点中,这样我在读取只有5个节点活动的数据时就不会有任何问题。
或者任何其他建议将不胜感激。
答案 0 :(得分:1)
您可以使用机架感知(虚拟)将您的群集分成2"机架",并将您定期关闭的5个节点放置在单独的机架上#34;。复制策略将要求NN将副本放置在单独的机架上(如果已配置)。同样,我在这里指的是虚拟意义上的机架。那应该能得到你想要的东西。