Cloudera hadoop数据存储到特定节点

时间:2018-06-05 15:04:15

标签: hadoop hdfs cloudera cloudera-cdh cloudera-manager

我有10个amazon ec2节点集群用于每天的数据处理,我想每天批处理使用所有10个节点(仅2小时处理),一旦生成报告数据点,我想关闭5节点并且只有5个节点在当天剩余的时间内活动以进行成本优化。

我的复制因子为3.

在某些情况下,所有3个数据块(实际和复制块)都存储在我正在关闭的5个节点中。因此,我无法正确读取数据。

我可以在cloudera管理器中进行一些设置,将特定的数据库或特定表保存到给定的节点中,这样我在读取只有5个节点活动的数据时就不会有任何问题。

或者任何其他建议将不胜感激。

1 个答案:

答案 0 :(得分:1)

您可以使用机架感知(虚拟)将您的群集分成2"机架",并将您定期关闭的5个节点放置在单独的机架上#34;。复制策略将要求NN将副本放置在单独的机架上(如果已配置)。同样,我在这里指的是虚拟意义上的机架。那应该能得到你想要的东西。