估计hadoop的硬件

时间:2015-07-24 06:32:41

标签: hadoop hive

我有1TB的hive数据。我想在2小时内处理数据......并且hadoop集群不会增长,因为它没有用户交互。如果我想拥有3台正在运行的机器,每台机器需要多少RAM和CPU

1 个答案:

答案 0 :(得分:2)

这取决于流程的复杂程度。在复杂的数据科学算法之前,一个简单的字数肯定会完成。您选择的实现(例如Map-Reduce vs Spark)也会影响执行时间。

对于任何给定的硬件规范,某些过程可能会完成,而其他过程可能会错过最后期限。如果没有提供有关您的工作量的更多详细信息,您将无法获得完整的答案(即使这样,答案也可能是建议您使用特定流程进行实际实验)。但是,我可以说在调整集群大小时,我倾向于引用两种资源:

http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.1.2/bk_cluster-planning-guide/content/ch_hardware-recommendations.html

http://blog.cloudera.com/blog/2013/08/how-to-select-the-right-hardware-for-your-new-hadoop-cluster/

cloudera博客特别讨论了不同的硬件要求,具体取决于您的工作负载是存储密集型,计算密集型等。