应用错误收集

我目前正在合理弱硬件上运行ELK集群（四个虚拟机，分配4 GB内存，每个内核两个核心。这将在几个月内发生变化，但是现在我们仍然需要摄取并提供日志。

获取一个服务的所有服务器发送日志后 Logstash通过nxlog，收集工作相当好几天。不久之后，logstash经常开始楔入。该 logstash线程'filterworker.0'将跳转到93然后99％服务器的CPU。 Logstash本身不会终止;相反它会继续下去 on，hung，从不向Elasticsearch发送任何新的日志。调试日志会表明logstash不断按间隔调用flush。它会永远不会从这种状态恢复;它整个周末都只挂了一个重新启动它时恢复正常操作。 Logstash将开始赶上周末的日志然后再快速释放（通常在五到十分钟内，需要再次重启服务。一旦日志能够大部分赶上（许多重新启动后来和一些关闭复杂的grok过滤器），logstash返回到它以前习惯每隔五到三十分钟打开一次。

我试图将其缩小到特定的配置将我的日志过滤器换入和换出conf.d目录。少了配置，logstash将运行更长的时间（长达一个小时一半）但最终它会再次冻结。

将jstack连接到冻结的filterworker.0线程的PID 返回主要是'get_thread_regs失败的lwp'调试器异常没有找到死锁。

在调试时运行时，logstash的日志中没有实际的故障冗长;只是那些缓冲日志。

磁盘未满。

我们当前的配置是三个弹性搜索节点，全部接收从logstash服务器输入（使用logstash的内部负载平衡器）。我们有一个logstash服务器。这些都是CentOS 7 机器。 logstash机器运行的是2.1.3版本，源自 Elastic的yum存储库。

我已经玩过改变堆大小，但似乎什么都没有帮助，所以我目前正在开箱即用的默认值下运行它。我们只使用一个工作线程，因为它是一个单核虚拟机。我们曾经使用多线，但这是我注意到的第一件事这开始发生了。

我不确定下一步该去哪儿。我的理论是logstash的缓冲区是只是无法处理当前的日志流量;但没有任何日志中的确凿错误，我不知道如何证明它。我觉得像可能值得在nxlog和。之间放置redis或rabbit队列使用logstash缓冲洪水;这看起来是合理的下一步吗？

非常感谢人们可能提出的任何建议。

Logstash达到99％的CPU使用率并永久冻结（或直到重新启动）

3 个答案: