我在一个环境中工作,每个文件都有许多不同的日志文件和许多不同格式的日志行(100+)。
我已经广泛使用了grok来揭示这些中令人兴奋的各种趋势,但我想知道是否有一个简单的通用图可以让我对任何日志文件中的单词频率有所了解?
在Kibana 4 beta 3中是否可以绘制@message字段中唯一单词的计数? (我对任何数字都不感兴趣,我使用带宽,频率不断变化)。
考虑以下日志文件:
29/01/2015 17:45:00 INFO Loading Banana 3218763kbs检索 - null / absy
29/01/2015 17:45:01调查Apple审讯,完成25
29/01/2015 17:45:02 EXCEPTION!水果在34天内腐烂
29/01/2015 17:45:03当天的关键词是菠萝123456789
想象一下上面的200多种变体。
我想计算每个字返回的字数:
cat logfile | cut -d" " -f3- | tr -d [0-9]
即。删除时间戳,删除数字,然后计算每个单词的频率。我可能从未见过的日志文件中的饼图/常用术语计数非常有用:
香蕉788 帮助692 例外情况678 橙色53 检索287
我认为这是一个重要的术语集合"在现场"消息"会有所帮助,但前提是我可以排除任何数字,但这似乎无法做到。
谢谢!
答案 0 :(得分:1)
答案是使用“条款”而不是“重要条款”与包含模式[A-Za-z] {2,} *仅包括2个字母或更多的单词(不是数字)。 酷!