使用Collectl

时间:2015-06-19 01:35:13

标签: hadoop monitoring system-monitoring

我正在评估各种系统监控工具,以便使用一个来监控我的hadoop集群。 我印象深刻的工具之一是collectl。几天以来,我一直在玩它。

我很难找到如何在使用colmux时聚合collectl捕获的指标?

说,我的hadoop集群中有10个节点,每个节点都运行collectl作为服务。使用colmux我可以看到 单个视图中每个节点的性能指标(单行和多行格式)。太好了!

但是,如果我正在考虑集群中所有节点上的CPU,IO等的聚合,那该怎么办?那就是我想找到的 通过将每个节点的性能指标聚合到相应的节点中,我的集群如何执行 数字,从而为我提供了集群级别的指标,而不是节点级别。

非常感谢任何帮助。谢谢!

1 个答案:

答案 0 :(得分:1)

我已经在邮件列表上回答了这个问题,但是为了那些不在其上的人的利益,我会在这里重复一遍..

这是一个很酷的主意。所以,如果我理解正确,你可能会在底部看到某种总线?我总是可以添加到我的愿望清单,但没有承诺。但我想如果你不介意自己做一些额外的工作,我也可能有一个解决方案;)顺便说一句 - 我可以假设你已经安装了readkey,所以你可以用箭头键改变排序列吗?

如果你使用--noesc运行colmux,它将更多地从全屏幕中删除它,并简单地将所有内容打印为滚动输出。如果你还包括“--lines 99999”(或一些大数字),它将打印所有远程系统的所有输出,这样你就不会错过任何东西。最后,您可以通过perl,python,bash或您喜欢的任何脚本工具管道输出,并自己完成总计。然后,每当你看到一个新标题飞过时,打印总计并将计数器重置为0.你甚至可以添加时间戳,甚至可能最终使它成为你自己的开源项目。我打赌别人会发现它也很有用。

-mark