如何对Hadoop集群进行负载和性能测试?

时间:2015-12-15 08:07:20

标签: performance hadoop load performance-testing mapr

是否有任何工具可以生成自动方案,其中包含预定义的用户请求(运行相同的map-reduce作业)并监控负载下Hadoop集群的某些特定指标?我理想地寻找类似LoadRunner但免费/开源工具的东西。

该工具不一定具有很酷的用户界面,而是能够记录和保存包含多个用户的加速点和集合点的场景(等到其他用户达到某个点并同时执行某些操作)。 / p>

我要测试的Hadoop发行版是最新的MapR。

搜索互联网并没有为HP LoadRunner带来任何好的免费替代品。如果您有使用Hadoop(或特别是MapR)负载测试的经验,请分享您使用的工具。

1 个答案:

答案 0 :(得分:0)

您将看到的每个解决方案都包含工具商和总价中的人工商。有许多开源工具将工具成本降至零,但劳动力费用非常高,以至于您的总交付成本将高于购买劳动力成本较低的商业工具。此外,许多人将性能测试工具视为单独的负载生成,忽略了监控数据的自动收集和结果分析,您可以通过同时使用相关资源来增加响应时间。当您使用分离工具时,这是一个费力的过程。

正如您提到的LoadRunner,当您提供工具时,您应该比较该工具中可用的内容与您提供的内容。例如, 有Java,C,C ++和& LoadRunner中提供的VB接口。您将找到一种锻炼地图并减少基础设施的方法。比较集成监控功能(本机/ SNMP /终端用户与命令行...)以及分析和报告。如果功能不存在,您将需要构建功能或在其他地方获取功能。

你也提出了Rendezvous的概念。您需要在任何工具中小心其应用程序。除非您拥有非常大的人口,否则同时在同一代码/动作区域内同时发生碰撞的几率变得非常小。人类是混乱的工具,彼此独立地到达和离开。另一方面,如果您使基于时钟滴答的代理自动化,那么集合点会更有意义。通过IP地址查看您的作业提交日志可以提供同时提交的数量(集合点)与同时运行的数量的客观模型。我审核了很多测试,并且会合是跨工具最滥用的项目,导致数千个工程时间丢失,追逐自然使用中永远不会发生的工程鬼。