我想在aws中设置一个hadoop集群,总容量约为100T。如果按照http://aws.amazon.com/ec2/instance-types/选择aws实例,我没有理想的数据节点配置,我想为工作节点使用本地磁盘(SSD / NON-SSD)。例如如果我为datanode选择cc2.8xlarge实例,那么对于100T,我将不得不设置30个cc2.8xlarge实例,这将是非常昂贵的。您能否建议我如何在aws(EC2)中使用最少数量的数据节点配置我的集群,或者在aws中是否有任何针对hadoop的标准配置?
答案 0 :(得分:1)
这听起来非常像你想要考虑Elastic MapReduce,这是一个基于Hadoop的核心AWS服务。
http://aws.amazon.com/elasticmapreduce/
您可以指定配置,群集将为您启动 - 比尝试自己配置EC2实例容易得多。
答案 1 :(得分:0)
如果您想自己做Hadoop,那么您可以使用EBS驱动器。您可以在每个节点上安装一堆驱动器(我记得大约10-20个驱动器),每个驱动器最多可以达到1 TB。
如果你不想自己做,那么就像猴子矩阵那样研究EMR。