应用错误收集

我正在评估各种系统监控工具，以便使用一个来监控我的hadoop集群。我印象深刻的工具之一是collectl。几天以来，我一直在玩它。

我很难找到如何在使用colmux时聚合collectl捕获的指标？

说，我的hadoop集群中有10个节点，每个节点都运行collectl作为服务。使用colmux我可以看到单个视图中每个节点的性能指标（单行和多行格式）。太好了！

但是，如果我正在考虑集群中所有节点上的CPU，IO等的聚合，那该怎么办？那就是我想找到的通过将每个节点的性能指标聚合到相应的节点中，我的集群如何执行数字，从而为我提供了集群级别的指标，而不是节点级别。

非常感谢任何帮助。谢谢！

我已经在邮件列表上回答了这个问题，但是为了那些不在其上的人的利益，我会在这里重复一遍..

这是一个很酷的主意。所以，如果我理解正确，你可能会在底部看到某种总线？我总是可以添加到我的愿望清单，但没有承诺。但我想如果你不介意自己做一些额外的工作，我也可能有一个解决方案;）顺便说一句 - 我可以假设你已经安装了readkey，所以你可以用箭头键改变排序列吗？

如果你使用--noesc运行colmux，它将更多地从全屏幕中删除它，并简单地将所有内容打印为滚动输出。如果你还包括“--lines 99999”（或一些大数字），它将打印所有远程系统的所有输出，这样你就不会错过任何东西。最后，您可以通过perl，python，bash或您喜欢的任何脚本工具管道输出，并自己完成总计。然后，每当你看到一个新标题飞过时，打印总计并将计数器重置为0.你甚至可以添加时间戳，甚至可能最终使它成为你自己的开源项目。我打赌别人会发现它也很有用。

-mark

使用Collectl

1 个答案: