检查Bosun上是否正在运行进程

时间:2015-03-23 15:16:14

标签: monitoring bosun

我正在测试Bosun(Stack Exchange的开源监控和警报系统),我对如何监控" boolean"非常困惑。指标。

如果某些进程没有运行,我想收到提醒。

要收集指标,我尝试了两种方法:

  • documentation of scollector我看到可以配置某些流程我没有收到任何相关指标。我是否需要任何特殊配置来启用进程检查?

  • 我已经创建了一个自定义收集器来计算这些进程。

为了获得提醒,我创建了以下规则:

alert test {
  template = test
  crit = avg(q("avg:myprocess.running{host=*}", "10m", "")) < 1
}

这是正确的做法吗?还是有更好的方法?

1 个答案:

答案 0 :(得分:2)

选项

  1. 如果您有一个警报并正在使用OpenTSDB,那么当标签集&#34;消失时#34; (没有2倍的检查数据)警报将是未知的。那么你可以将这个未知的东西视为&#34; Down&#34;。
  2. 如果度量标准被发送,无论它是上升还是下降(即总是会有0或1,你可以提醒它。这里唯一的事情是avg并没有真正做出很多感觉(除非你正在做模糊逻辑)。所以你可能想要使用lastmaxmin
  3. CONF

    每个主机上都有scollector conf。配置行应该与您指定的文档链接中指定的一致。另请注意,您的示例警报没有warnNotification或critNotification,因此它只会在仪表板上(不会设置电子邮件或http帖子)。

    Tagsets和OpenTSDB查询

    了解&#34; avg:myprocess.running {host = *}&#34;中的第一个参数是重要的。因此,avg意味着获取未指定的所有标记并将其平均化。因此,例如,如果您还有像我们的scollector那样的ID标记,您可能希望在查询字符串中执行sum而不是avg,并在少于一个进程时发出警报。