我想知道收集有关某个Hadoop集群配置的数据的“标准”方法是什么,这意味着,获得具体证据表明某个集群配置的运行速度如吞吐量,带宽和其他任何我应该考虑。我目前正在考虑并试图了解TestDFSIO,但我不禁想到这并不是完全分析Hadoop的性能(我在某处读到它没有考虑到某些开销)。
如果有帮助,我目前的hadoop群集设置是2台服务器,其中KVM位于其上,一台有2台虚拟机,另一台有1台虚拟机。我想将此配置的性能与更简单的hadoop配置(没有KVM或VM)进行比较。
答案 0 :(得分:1)
还有其他基准测试,特别是TeraSort将测量你的集群改组性能,但我不会说它们的信息太多了。
IMHO性能分析hadoop集群有点像分析JVM - 没有具体的应用程序没有多大意义。
。
我想告诉我们,hadoop群集的性能应该根据你要在其上运行的一些MR工作进行评估。某些作业将受IO限制,其余的系统性能将不相关。一些将在Map Stage中受CPU限制,其余部分不重要等。