是否有一个开源工具可以自动查找日志文件中的模式?

时间:2011-05-12 20:31:21

标签: logging automation design-patterns discovery

我已经在集群系统上工作多年了,并且决定是时候我们有一个工具可以让我们轻松地查询纯文本日志文件(以及其他内容)。我将所有日志文件下载到旧的测试机器中,它们需要压缩大约20 GB,但是需要550 GB未压缩(部分原因是由于许多堆栈跟踪)。我们有不同的人保持不同的“主题”,多年来我们的日志格式发生了变化。但是,我们假设我可以以某种方式将其转换为所有主题的单一格式。

我的问题是:是否有一些免费/开源工具,我可以放弃这些文件,它会自动识别重复出现的类似日志消息。作为示例消息:

User John Smith has logged in from IP aaa.bbb.ccc.ddd. Duration: zzz ms.

鉴于此类消息的许多实例,该工具将产生如下模式:

User * has logged in from IP *. Duration: * ms.

其中*是不同数据的占位符。一旦我们拥有这些模式(需要定期更新),我们就可以将每个新消息与模式相匹配,并构建有用的统计信息。

理想情况下,该工具将是Java,或Python或Perl,因为我们使用它们,而且我们处于混合的Windows / Linux环境中。

1 个答案:

答案 0 :(得分:0)

这也可能是一个选项:Grok, automatic log pattern discovery in Python