测试大数据框架需要什么环境?

时间:2012-10-01 10:22:31

标签: hadoop cloud bigdata distributed-system

作为论文的一部分,我必须评估和测试一些大数据框架,如Hadoop或Storm。您建议使用什么最小设置来获得有关性能和可伸缩性的相关信息?什么Cloud Plattforms最适合这个?由于我正在评估多个框架,因此开箱即用PaaS - 解决方案不是最佳选择。对?什么是最少数量的节点/服务器来获取一些相关信息?越便宜越好,因为公司我这样做可能不会给我20机器集群;)

非常感谢, kroax

1 个答案:

答案 0 :(得分:0)

嗯,你肯定会想要至少两台物理机器。将多个虚拟机放在一台物理机器上的任何事情都是不可能的,因为那时你不会得到典型的分布式系统的网络开销。

三个可能是你可以逃脱的绝对最小值,因为它是一个现实的场景。即便如此,在很多时候,Hadoop的开销几乎没有超过收益。

我想说五个是最现实的最小值,而且是一个非常典型的小簇大小。 5 - 8是一个很好的小范围。

就平台而言,我认为亚马逊EC2 / EMR应始终是首选的选择。它是一个完善的,优质的服务,并且正在运行许多真实的集群。好处是它易于使用,相对便宜,并且代表了真实场景。唯一的缺点是虚拟化可能导致它的扩展程度与单个物理机器略有不同,但这对您来说可能是也可能不是问题。如果您使用更大的实例类型,我相信它们的虚拟化程度较低。

希望这有帮助。