我有1TB的hive数据。我想在2小时内处理数据......并且hadoop集群不会增长,因为它没有用户交互。如果我想拥有3台正在运行的机器,每台机器需要多少RAM和CPU
答案 0 :(得分:2)
这取决于流程的复杂程度。在复杂的数据科学算法之前,一个简单的字数肯定会完成。您选择的实现(例如Map-Reduce vs Spark)也会影响执行时间。
对于任何给定的硬件规范,某些过程可能会完成,而其他过程可能会错过最后期限。如果没有提供有关您的工作量的更多详细信息,您将无法获得完整的答案(即使这样,答案也可能是建议您使用特定流程进行实际实验)。但是,我可以说在调整集群大小时,我倾向于引用两种资源:
http://blog.cloudera.com/blog/2013/08/how-to-select-the-right-hardware-for-your-new-hadoop-cluster/
cloudera博客特别讨论了不同的硬件要求,具体取决于您的工作负载是存储密集型,计算密集型等。